Wav2Lipについて
このツールは「A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild」という論文のコードを含んでおり、ACM Multimedia 2020で発表されました。
コア機能
- 任意のビデオを任意の音声にリップシンクできます。
- どのようなアイデンティティ、ボイス、言語でも動作します。CGIの顔や合成音声にも対応しています。
- 完全な訓練コード、推論コード、および事前訓練されたモデルが利用可能です。
基本的な使用方法
- Python 3.6が必要です。
- ffmpegをsudo apt-get install ffmpegでインストールします。
- pip install -r requirements.txtで必要なパッケージをインストールします。
- 顔検出の事前訓練モデルをface_detection/detection/sfd/s3fd.pthにダウンロードします。
リップシンクビデオを事前訓練されたモデルで使用するには、python inference.py --checkpoint_path <ckpt> --face <video.mp4> --audio <an-audio-source>と入力します。結果はresults/result_voice.mp4に保存されます(デフォルト)。