2025年4月30日 著者 River-Zhang
ICEdit:指示に基づいた画像編集を可能にする革新的な手法
リポジトリ「ICEdit」は、論文「In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer」の実装を提供します。わずかなトレーニングデータとパラメータで最先端の指示に基づいた編集を実現する、斬新なアプローチです。
ICEditの主要な特徴
- 効率性: 従来の手法と比較して、わずか0.5%のトレーニングデータと1%のパラメータで同等以上の性能を実現します。
- 多様な編集: 複数のターンでの編集や、視覚的に印象的なシングルターンの編集に対応します。
- 実用性: 現実的な画像を主なターゲットとしていますが、スタイルの転送も可能です。
- 拡張性: 今後、データセットを拡張し、スケールアップすることで、さらに強力なモデルをリリース予定です。
- オープンソース: 商用モデルと比較して、低コストかつ高速(1枚の画像を約9秒で処理)で、透明性の高い編集が可能です。
ICEditの制限事項
- スタイルの変更: ベースモデル「FLUX」は、多様なスタイルをネイティブにサポートしていないため、意図せずアーティストスタイルが変更される場合があります。
- 画像の種類: トレーニングデータセットは現実的な画像を対象としているため、アニメやぼやけた画像などでは、編集の成功率が低下し、最終的な画像の品質に影響を与える可能性があります。
- オブジェクトの削除: オブジェクトの追加、色の変更、スタイルの適用、背景の変更などの成功率は高いですが、OmniEditの削除データセットの品質が低いため、オブジェクトの削除成功率は比較的低くなっています。
オブジェクトの除去といった高度な画像編集機能は、今後の改善に期待されます。
ICEditの使い方:インストールと推論
-
Conda環境のセットアップ:
-
事前学習済みモデルのダウンロード: 必要に応じて、Hugging Faceからモデルをダウンロードします。
-
推論の実行 (VLMスケーリングなし):
- 注意: 幅が512ピクセルでない画像は、自動的にリサイズされます。
- ヒント: 期待どおりの結果が得られない場合は、
--seed
パラメータを変更してみてください。
-
GPUメモリが少ない場合:
--enable-model-cpu-offload
パラメータを追加します。 -
ローカルにダウンロードしたモデルを使用する場合:
Gradio Demoでより簡単に画像編集
よりユーザーフレンドリーなGradioデモも提供されています。
必要に応じて、メモリオフロードやモデルのパスを指定できます。
商用モデルとの比較
GeminiやGPT-4oなどの商用モデルと比較して、ICEditはキャラクターIDの保持や指示の追従において、同等またはそれ以上の性能を発揮します。
今後の予定
今後、推論時のVLMスケーリング、Gradioデモ、トレーニングコードを公開予定です。
River-Zhangとチームは、今後も画像編集の可能性を広げるため、精力的に開発を進めていきます。
参考文献(BibTeX)
@misc{zhang2025ICEdit,
title={In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer},
author={Zechuan Zhang and Ji Xie and Yu Lu and Zongxin Yang and Yi Yang},
year={2025},
eprint={2504.20690},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2504.20690},
}