深層フロイド IF の紹介
深層フロイド IF は、最先端のオープンソースのテキストから画像へのモデルです。このモデルは、凍結されたテキストエンコーダと三つの連続したピクセル拡散モジュールで構成されています。ベースモデルはテキストプロンプトに基づいて 64x64 px の画像を生成し、二つの超解像度モデルはそれぞれ 256x256 px と 1024x1024 px の画像を生成するよう設計されています。 コア機能
- 凍結されたテキストエンコーダ:T5 トランスフォーマーに基づいてテキスト埋め込みを抽出します。
- UNet アーキテクチャ:クロスアテンションとアテンションプーリングで強化されています。 基本的な使用方法
- 最小要件:IF モデルを使用するには、16GB vRAM が必要です(IF-I-XL の 4.3B テキストから 64x64 ベースモジュール、IF-II-L の 1.2B から 256x256 アップスケーラモジュール)。
- クイックスタート:pip コマンドを使用して必要なパッケージをインストールします。
- モデルのロードと実行:DiffusionPipeline を使用して各ステージのモデルをロードし、テキストプロンプトに基づいて画像を生成します。
- 様々なモード:Dream(テキストから画像生成)、Style Transfer(スタイル転送)、Super Resolution(超解像度)、Inpainting(インペインティング)などのモードが利用可能です。