配信

Zoom のリアルタイム字幕ツールをつくった。雑なやつ。

はじめに

Zoomにリアルタイムに字幕を付ける機能があります。
以外と簡単にツールを作成できるのではご自由に。

Azure Cognitive Services Speech to TextのSDKを利用しています。
https://azure.microsoft.com/ja-jp/services/cognitive-services/speech-to-text/

いろいろここに置いときます。
https://github.com/jkudo/zoomcaption

字幕を付ける

Zoomに字幕を付ける方法は下記を参考にしています。
https://support.zoom.us/hc/en-us/articles/115002212983

基本は表示したい文字列をBODYとしてPOSTするだけです。
あと、POSTするときに、lang、seqを付けます。
langは日本語(jp-JP)を指定します。
seqは送信するごとに1増やしていきます。

Zoom側のルールはこの2つだけです。

他は、Speech SDKのドキュメントを参考にしています。
https://docs.microsoft.com/ja-jp/azure/cognitive-services/speech-service/quickstarts/speech-to-text-from-microphone?tabs=dotnet%2Cx-android%2Clinux%2Cjava-runtime%2Cwindowsinstall&pivots=programming-language-csharp

使い方

事前にZoomのWeb設定画面から字幕を有効にしておきます。

アプリを立ち上げます。
zoomcaption\bin\x64\Debug あたりにexeあります。

Zoomを起動してAPIトークンをコピーします。

貼り付けます。

キーをコピーします。

貼り付けます。

リージョンとスピーカーの言語を指定します。

入力が完了後、マイクにしゃべると文字起こしが始まります。

実際にZoomに字幕が最初に表示されるまではタイムラグがあります。
字幕が利用できます。と表示されると問題なく動作しています。

あとはサブタイトルを表示したり、トランスクリプトの画面を開き確認します。

以上です。

まとめ

Zoomの字幕がちょっと微妙な感じでしか動作しないので動いたり動かなかったり。
表示されない場合は暫くマイクにしゃべり続けると表示されます。

勉強がてら作った簡単なアプリなので次回がもうちょっとまともなの作成します。

-配信
-,