Autosub: ビデオ字幕自動生成ツール
Autosub はビデオまたはオーディオファイルを入力として受け取り、音声認識と字幕生成を行うユーティリティです。このツールは、ビデオやオーディオファイル内の音声活動を検出して話している部分を特定し、Google Web Speech API に並行してリクエストを送信してその部分の文字起こしを生成します。また、オプションで別の言語に翻訳し、最終的に結果として得られた字幕をディスクに保存します。
インストール方法
- ffmpeg をインストールします。
pip install autosub
を実行します。
使用方法
$ autosub -h
でヘルプメッセージを表示できます。
-C CONCURRENCY
で同時APIリクエストの数を設定できます。
-o OUTPUT
で字幕の出力パスを指定できます。
-F FORMAT
で字幕の形式を指定できます。
-S SRC_LANGUAGE
でソースファイルの言語を指定できます。
-D DST_LANGUAGE
で字幕の希望言語を指定できます。
-K API_KEY
でGoogle Translate APIキーを指定できます(字幕翻訳に必要)。
--list-formats
で利用可能な字幕形式を一覧表示できます。
--list-languages
で利用可能なソース/ターゲット言語を一覧表示できます。
このツールは現在、SRT 形式または単純な JSON 形式で字幕を生成できます。また、様々な入力と出力言語がサポートされています(詳細は --list-languages
オプションで確認できます)。ただし、現在このツールはメンテナンスされていません。