[音声認識] Windows11 23H2の音声認識(ライブキャプション)を使ってみる

作成:2023年11月7日  最終更新:2023年11月9日

2023年11月に入り、Windows11 23H2の一般向け公開が始まりました。一般的にはCopilotが目玉なのでしょうが、一部の人にとっては「ライブキャプション」機能こそが目玉です。PCから出る音(動画とか)の音声を認識させ字幕表示する機能で、他のOSでも同じ名前で呼ばれています。

実は「日本語が使えて」「機種を選ばず」使えるライブキャプション機能は、今回のWindows11 23H2が初めてとなります(AndroidはPixelなど一部機種のみ、iOSとmacOSは日本語非対応)。

■使い方

タスクトレイ(画面右下)のクイック設定(音量などのアイコンを左クリックすると出るもの)から「アクセシビリティ」を選び、出てくる項目の「ライブ キャプション」を有効にする

クイック設定のスクリーンショット。中央付近に「アクセシビリティ」がある アクセシビリティ設定。中央付近に「ライブキャプション」があり有効になっている


なお、初回は音声認識用データのダウンロードが必要です。ここでの注意事項にある通り、この機能はPC本体で音声認識を行います。

ライブキャプションのウインドウに、「日本語(日本)でのキャプションの準備が完了しました」と出れば、準備完了です。

適当に喋りが入る動画を再生すると、ライブキャプションのウインドウに字幕が出てきます。速度・精度ともになかなかいいと思います。普通のPCのローカルでの認識でもここまでできるんですね。

(2023-11-09追記:動画再生やマイク音声の認識はそこそこ良いのですが、ビデオ会議と仮想カメラなど、重い処理を同時に動かしていると時折遅れが大きくなり、警告メッセージが出たり、一部がまるっと抜けることがあります。PCローカルなので仕方ないところなのでしょう)

■注意点

ライブキャプションのウインドウが出る時、他のウインドウが重なっていると、強制的にずらされてしまいます(Copilotと同じ問題のような)。鬱陶しいと感じる人は、ライブキャプションの設定(右にある歯車アイコン)から「位置」→「画面に重ねて表示」を選ぶといいと思います。他のウインドウに覆いかぶさる表示形式となるので、既存のウインドウに影響しなくなります。

ライブキャプションの設定から「表示」を開いたスクリーンショット


設定の選択肢が「上の画面」「下の画面」「画面に重ねて表示」となっているのは、相変わらず日本語が不得手なマイクロソフトという感じですが、意味としては「画面の上」「画面の下」「他のウインドウの上に重ねて表示」ですね。

■マイクの音声を認識させる

通常、ライブキャプションは、例えば動画とかビデオ会議のような「PCから出る音」の音声を認識します。マイクでしゃべっても認識されません(Windows11に入っている音声認識サービスを使えばいいといえばいいのですが……)。

(2023-11-09 全面改訂)
これについては、ライブキャプションの設定から、簡単に切り替えられます。

ライブキャプションの歯車アイコンをクリックしてメニューを出し、「設定」を選び、その中にある「マイク オーディオを含む」を選択します。これでマイクから入った音声も字幕になります。

ライブキャプションの「設定」サブメニューのスクリーンショット。2つ目に「マイク オーディオを含める」がある


■サイズや色を変える

まず、ライブキャプションのウインドウは端をドラッグすることでサイズ変更できます。また、「位置」の設定を「画面に重ねて表示」にしていれば、ウインドウ内の任意の場所をドラッグすることで移動できます。

次に字幕の文字サイズや色の変更ですが、ライブキャプションの「設定」から「キャプション スタイル」を選ぶと設定画面が出てきます(ちなみに、これはWindowsの字幕設定です)。

字幕スタイルにはプリセットとして「既定」「黒の上に白」「大きいテキスト」「青の上に黄色」があります。日本語が相変わらず変ですが、「黒の上に白」は「黒背景、白文字」の意味です。なお、「青の上に黄色」は背景の青が明るすぎるように思います。当事者を入れずに作ってる印象。

Windowsの字幕設定のスクリーンショット。上から「テーマのプレビュー」「ライブキャプションのON/OFF」「字幕のスタイル」があり、字幕のスタイルはプリセットとして「既定」「黒の上に白」「大きいテキスト」「青の上に黄色」がある


プリセットの左下にある「編集」ボタンをクリックすると、プリセットを起点として(別の名前で)スタイルを変えることができます。「テキスト」(字幕の文字)、「背景」、「ウインドウ」という3つのタブがあるので、適宜切り替えて設定できます。

ただし、以下で示しましたが、プレビューには反映される項目でもライブキャプションでは反映されない項目も多く、調整できる範囲はかなり限定的です。

  • 色:選べるのは8色(白、黒、赤、緑、青、黄色、マゼンタ、シアン)だけです。背景色に暗い青を指定できればよかったのですが。
  • 不透明度:100%で不透明、0%で透明です。間は25%と75%しか選べません。なお、ライブキャプションではこの設定は反映されないようです。
  • サイズ(「テキスト」のみ):小、中、大、特大の4種類です。特大でもあまり大きくないのが残念。
  • フォント(「テキスト」のみ):6種類ありますが、どれでも同じフォント(「プロポーショナル ゴシック」、いわゆるsans-serif)が選ばれているような気がします。
  • 文字飾り(「テキスト」のみ):文字装飾がいくつかありますが、選んでも変わらないものが大半です。なお、ライブキャプションではこの設定は反映されないようです。


Windowsの字幕設定の「字幕のスタイル」編集画面で「テキスト」タブを選んだ状態のスクリーンショット。設定項目は上からスタイルの名前、テキストの色、不透明度、フォント、文字飾りがある Windowsの字幕設定の「字幕のスタイル」編集画面で「背景」タブを選んだ状態のスクリーンショット。設定項目は上からスタイルの名前、背景色、不透明度がある。また、タブは「テキスト」「背景」の他に「ウインドウ」がある


■まとめ

機種を選ばず使えて、PCで扱う音声ならなんでも字幕にできるのは素晴らしいの一言です。

ただし、字幕表示のカスタマイズはやや残念。他はともかく「黄色の文字と濃紺の背景」プリセットは追加してほしいところです。


◀(前記事)[音声認識] Webブラウザの音声認識APIを使う:ブラウザ間の差異など
▶(次記事)[音声認識01] ビデオ会議で字幕つきカメラを使う

(一覧)[2.技術情報 (tech)]