「openai/whisper」について
openai/whisper は汎用的な音声認識モデルです。多様なオーディオデータセットで訓練されており、多言語音声認識、音声翻訳、言語識別などのマルチタスクを実行できます。
コア機能
- トランスフォーマーシーケンス・ツー・シーケンスモデルを用いて、多言語音声認識、音声翻訳、話し言葉の識別、ボイスアクティビティ検出などの様々な音声処理タスクに対応しています。
- マルチタスク学習形式で、特殊なトークンを使用してタスク指定や分類ターゲットとしています。
基本的な使用方法
- Python 3.9.9 と PyTorch 1.10.1 を使用して訓練とテストが行われていますが、Python 3.8 - 3.11 と最近の PyTorch バージョンとの互換性が期待されています。
- コードベースはいくつかの Python パッケージに依存しており、特に OpenAI の tiktoken が高速トークン化実装に使用されています。
- コマンドラインツール ffmpeg がシステムにインストールされている必要があります。
音声認識の性能は言語によって大きく異なります。モデルには6つのサイズがあり、速度と精度のトレードオフが可能です。