現代のデジタル時代において、画像生成技術は驚異的な速度で発展しています。最近、シンガポール国立大学研究チームが、画像生成の柔軟性と効率性を向上させることを目的とした全く新しいフレームワーク「OminiControl」を発表しました。このフレームワークは、画像条件を組み合わせることで、既に訓練された拡散変換器(Diffusion Transformer、略してDiT)モデルを最大限に活用し、かつてない制御能力を実現しています。

簡単に言うと、素材画像を提供するだけで、OminiControlを使用して、その素材画像の主題を生成画像に組み込むことができます。例えば、左側の素材画像をアップロードし、「チップ人間が医師の診察室のテーブルの横に置かれ、テーブルには聴診器が置かれている」というプロンプトを入力すると、生成結果は次のようになります。

image.png

OminiControl の核心は、「パラメータ再利用メカニズム」にあります。このメカニズムにより、DiTモデルは、より少ない追加パラメータで画像条件を効果的に処理できます。つまり、既存の方法と比較して、OminiControlはわずか0.1%から0.1%のパラメータ増加で強力な機能を実現できます。さらに、主題ベースの生成や、エッジ、深度マップなどの空間整合条件の適用など、様々な画像条件タスクを統一的に処理できます。この柔軟性は、主題主導の生成タスクに特に適しています。

image.png

研究チームは、OminiControlがこれらの能力を実現するために、生成された画像を訓練することで実現していることを特に強調しています。これは、主題主導の生成にとって非常に重要です。広範な評価の結果、OminiControlは、主題主導の生成と空間整合条件の生成の両方のタスクにおいて、既存のUNetモデルとDiT適応モデルを大幅に上回りました。この研究成果は、創作分野に新たな可能性をもたらします。

image.png

さらに広範な研究を支援するために、研究チームは、20万枚以上の同一人物の画像を含むSubjects200Kというトレーニングデータセットと、効率的なデータ合成パイプラインも公開しました。このデータセットは、研究者にとって貴重なリソースとなり、主題の一貫性のある生成タスクの更なる探求に役立ちます。

OminiControlの登場は、画像生成の効率と効果を向上させるだけでなく、芸術創作にも多くの可能性をもたらします。技術の進歩に伴い、将来の画像生成はさらに高度化し、パーソナライズされていくでしょう。

オンライン体験: https://huggingface.co/spaces/Yuanshi/OminiControl

github: https://github.com/Yuanshi9815/OminiControl

論文: https://arxiv.org/html/2411.15098v2

要点:

🌟 OminiControlはパラメータ再利用メカニズムにより、画像生成の制御能力と効率性を向上させます。

🎨 このフレームワークは、エッジや深度マップなど、様々な画像条件タスクを同時に処理し、様々な創作ニーズに対応します。

📸 研究チームは、20万枚以上の画像を含むSubjects200Kデータセットを公開し、更なる研究と探求を支援します。