Parti: パスウェイズ自己回帰テキスト・ツー・イメージモデル
概要: Partiは自己回帰テキスト・ツー・イメージ生成モデルです。このモデルは高品質で写実的な画像生成を達成し、複雑な構成と世界知識を含む豊富な内容の合成を可能にします。また、拡散モデルとは異なる自己回帰モデルとして、新たな可能性を開きます。
コア機能:
- 強力なイメージトークナイザーViT-VQGANを使用し、画像を離散トークンのシーケンスとしてエンコードします。
- 大規模な言語モデルの進歩から恩恵を受け、特にデータとモデルの規模拡大によって解放される機能を活用しています。
- 200億パラメータまでのエンコーダ・デコーダのスケーリングにより、一貫した品質向上を実現しています。
基本的な使用方法:
- テキストを入力として、画像のシーケンスを生成します。
- 様々なカテゴリや難易度の分析において効果的です。
- 抽象的なプロンプト、世界知識が必要なプロンプト、特定の視点や書き込み、シンボル描画が必要なプロンプトに特に優れています。
しかし、Partiにはいくつかの限界もあります。例えば、否定や不在の指示の処理が適切でない場合があります。また、モデルは訓練データに存在するバイアスを反映する可能性があります。そのため、現在はモデル、コード、データの公開は行われていません。