T2I-R1: セマンティックレベル & トークンレベル CoTによる画像生成の強化
画像生成AIの分野に新たな風を吹き込む「T2I-R1」が登場しました。このモデルは、セマンティックレベルとトークンレベルのCoT(Chain-of-Thought; 連鎖的思考)を活用し、既存の画像生成モデルを大幅に強化します。論文の公式リポジトリはこちらです。
T2I-R1とは? 強化学習で実現する革新的画像生成
T2I-R1は、強化学習(RL)とバイレベルCoT推論プロセスを活用した、新しい画像生成モデルです。LLMやLMMで広く研究されているCoT推論を、画像生成に応用した点が特徴です。
なぜCoT推論が重要なのか? 画像生成における課題と解決策
従来の画像生成モデルでは、複雑なプロンプトを理解し、高品質な画像を生成することが困難でした。T2I-R1は、CoT推論により、以下の2つの課題を解決します。
- グローバルな構造設計: セマンティックレベルCoTで、画像全体の構成(オブジェクトの配置や外観)を計画します。
- ローレベルの詳細生成: トークンレベルCoTで、ピクセルレベルの細部を生成し、視覚的な整合性を保ちます。
T2I-R1の主要な構成要素:BiCoT-GRPO と2種類のCoT
T2I-R1は、以下の要素で構成され、高品質な画像生成を実現します。
- セマンティックレベルCoT: 画像生成前にテキストで推論することで、画像の全体像を設計します。
- プロンプトの計画と推論を管理し、その後の画像トークン生成を容易にします。
- トークンレベルCoT: 画像のパッチごとの生成プロセスを制御し、低レベルの詳細を最適化します。
- ピクセルの生成と、隣接するパッチ間の視覚的な一貫性を維持します。
- BiCoT-GRPO: 2つのレベルのCoTを協調させ、同じトレーニングステップ内で両方のCoTを最適化します。
- 複数の生成報酬を組み合わせ、より高品質な画像を生成します。
T2I-R1を始めるには? インストールからトレーニングまで
以下は、T2I-R1を使用するための基本的な手順です。
インストール
- リポジトリをクローンします。
- Conda環境を作成し、アクティブ化します。
- PyTorchとTorchVisionの依存関係をインストールします(詳細)。
- 追加の依存関係をインストールします。
- GroudingDINOをインストールします。
リワードモデル チェックポイントの準備
reward_weight
ディレクトリを作成します。- HPSチェックポイントをダウンロードします。
- GITチェックポイントをダウンロードします。
- GroundingDINOチェックポイントをダウンロードします。
トレーニング
注意: run_grpo.sh
内の正しいチェックポイントパスと設定パスを設定してください。
推論
関連研究:画像生成CoTと大規模マルチモーダルモデルの可能性
T2I-R1は、既存の研究を参考にしながら、独自の進化を遂げています。関連研究として、以下のものが挙げられます。
- Image Generation CoT: 画像生成における連鎖的思考の検証と強化
- MME-CoT: 大規模マルチモーダルモデルにおける連鎖的思考の評価
- MathVerse: マルチモーダルLLMによる図解問題の理解度評価
- MAVIS: 自動データエンジンによる数学的な視覚指示チューニング
- MMSearch: マルチモーダル検索エンジンとしての大規模モデルの可能性
今後の展望:ORMチェックポイントと報酬コードの公開
T2I-R1は、画像生成AIの未来を切り開く可能性を秘めています。開発チームは、ORMチェックポイントと報酬コードを近日中に公開予定です。今後の展開に注目しましょう。