テキスト駆動のスタイル変換は画像合成分野における重要な課題であり、参照画像のスタイルとテキストプロンプトで記述された内容を融合することを目指しています。近年、テキストから画像を生成するモデルが著しい進歩を遂げ、より精緻なスタイル変換を実現しつつ、高忠実度なコンテンツを維持できるようになりました。この技術は、デジタルペイント、広告、ゲームデザインなどの分野で大きな実用価値を持っています。

image.png

しかしながら、既存のスタイル変換技術にはいくつかの欠点があり、主な課題は以下の通りです。

スタイルの過剰適合:既存のモデルは参照画像のすべての要素を複製する傾向があり、生成された画像が参照スタイル画像の特徴に近くなりすぎ、生成画像の美的柔軟性と適応性が制限されます。

テキストの整合性の欠如:モデルは、テキストプロンプトの指示と矛盾していても、参照画像の主要な色やパターンを優先する可能性があります。

アーティファクトの生成:スタイル変換によって、不要なアーティファクト(例:チェッカーボード効果のような繰り返しパターン)が導入され、画像全体のレイアウトが損なわれる可能性があります。

image.png

これらの問題を解決するために、研究者たちは3つの補完的な戦略を提案しました。

AdaINベースのクロスモーダル融合:**適応インスタンス正規化(AdaIN)**メカニズムを利用して、スタイル画像の特徴をテキストの特徴に融合し、その後画像の特徴と融合します。この適応的な融合により、よりまとまりのある誘導特徴が作成され、スタイル特徴とテキストベースの指示がより調和的に整合します。AdaINは、コンテンツの特徴をスタイル統計情報を反映するように調整することで、コンテンツにスタイルを効果的に取り込みながら、コンテンツとテキスト記述の一貫性を維持します。

スタイルベースの分類器なし誘導(SCFG):目標スタイルに焦点を当て、不要なスタイル特徴を削減するスタイル誘導方法を開発しました。レイアウト制御生成モデル(例:ControlNet)を使用して、目標スタイルのない「負」画像を生成します。この負画像は、拡散モデルにおける「空」のプロンプトのように機能し、誘導が目標スタイル要素に完全に集中できるようにします。

教師モデルを使用したレイアウトの安定化:生成の初期段階で教師モデルを導入します。この教師モデルは元のテキストから画像へのモデルに基づいており、スタイルモデルと同時に同じテキストプロンプトを使用してノイズ除去生成を実行し、各ステップで空間的アテンションマップを共有します。この方法は、安定した一貫性のある空間分布を確保し、チェッカーボードアーティファクトなどの問題を効果的に軽減します。さらに、異なるスタイルの参照画像間で同じテキストプロンプトにおいて一貫した空間レイアウトを実現します。

研究者たちは、多数の実験を通してこれらの方法の有効性を検証しました。その結果、この方法は生成画像のスタイル変換品質を大幅に向上させ、テキストプロンプトとの整合性を維持できることが示されました。さらに重要なことに、この方法は既存のスタイル変換フレームワークに統合でき、微調整は必要ありません。

研究者たちは実験を通して、クロスアテンションメカニズムの不安定さがアーティファクトの発生につながることを発見しました。自己アテンションメカニズムは、画像のレイアウトと空間構造を維持する上で重要な役割を果たしており、高レベルの空間関係を捉えることで、生成過程における基本的なレイアウトを安定させます。スタイル化された画像の特定の自己アテンションマップを選択的に置き換えることで、画像内の重要な特徴の空間関係を維持し、ノイズ除去プロセス全体を通してコアレイアウトの一貫性を確保できます。

さらに、スタイルベースの分類器なし誘導(SCFG)は、スタイルの曖昧性の問題を効果的に解決し、必要なスタイル要素を選択的に強調しながら、関連性のないまたは矛盾する特徴をフィルタリングできます。この方法は、レイアウト制御モデルを使用して負のスタイル画像を生成することにより、モデルが必要なスタイルコンポーネントの伝達に集中できるようにし、関連性のないスタイルコンポーネントの過剰適合のリスクを軽減します。

研究者たちは、各コンポーネントの影響を評価するために、アブレーション実験も行いました。その結果、AdaINベースのクロスモーダル融合と教師モデルはどちらも、テキストの整合性の精度を大幅に向上させることができ、それらは補完的な効果を持つことが示されました。

総じて、この研究で提案された方法は、既存のテキスト駆動型スタイル変換技術におけるスタイルの過剰適合とレイアウトの不安定性の問題を効果的に軽減し、より高品質な画像生成を実現し、テキストから画像への合成タスクのための多機能で強力なソリューションを提供します。

論文アドレス:https://arxiv.org/pdf/2412.08503