はじめに
Zoomにリアルタイムに字幕を付ける機能があります。
以外と簡単にツールを作成できるのではご自由に。
Azure Cognitive Services Speech to TextのSDKを利用しています。
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech-to-text/
いろいろここに置いときます。
https://github.com/jkudo/zoomcaption
字幕を付ける
Zoomに字幕を付ける方法は下記を参考にしています。
https://support.zoom.us/hc/en-us/articles/115002212983
基本は表示したい文字列をBODYとしてPOSTするだけです。
あと、POSTするときに、lang、seqを付けます。
langは日本語(jp-JP)を指定します。
seqは送信するごとに1増やしていきます。
Zoom側のルールはこの2つだけです。
他は、Speech SDKのドキュメントを参考にしています。
https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstarts/speech-to-text-from-microphone?tabs=dotnet%2Cx-android%2Clinux%2Cjava-runtime%2Cwindowsinstall&pivots=programming-language-csharp
使い方
事前にZoomのWeb設定画面から字幕を有効にしておきます。
アプリを立ち上げます。
zoomcaption\bin\x64\Debug あたりにexeあります。
実際にZoomに字幕が最初に表示されるまではタイムラグがあります。
字幕が利用できます。と表示されると問題なく動作しています。
あとはサブタイトルを表示したり、トランスクリプトの画面を開き確認します。
以上です。
まとめ
Zoomの字幕がちょっと微妙な感じでしか動作しないので動いたり動かなかったり。
表示されない場合は暫くマイクにしゃべり続けると表示されます。
勉強がてら作った簡単なアプリなので次回がもうちょっとまともなの作成します。