人工知能(AI)分野において、AI画家の能力は着実に進歩を遂げています。しかし、最先端のAI画像生成モデルでさえ、一見単純なタスクで困難に直面することがあります。最近、上海交通大学の趙峻図博士とその研究チームは、研究の中でAIが「茶碗に入ったアイスコーラ」という場面を生成する際に、予想外の困難を示すことを発見しました。

この現象は学界の注目を集め、「テキスト画像不一致問題」(text-image misalignment)と呼ばれています。2023年10月、AI画像生成モデルが台頭し始めた頃、趙峻図氏とそのチームは試行を行い、AI画家がこの場面を構築する際に、茶碗ではなく、アイスコーラで満たされた透明なガラスのコップを描くことが多いことを発見しました。2024年7月、最先端のモデルを使用して試行しても、結果は依然として不十分でした。

image.png

この問題を深く探求するために、上海交通大学の王徳泉教授の研究チームは、近日発表予定の論文「Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models」において、この問題を潜在変数を含む不一致問題(Latent Concept Misalignment、略してLC-Mis)として分類しました。彼らは、大規模言語モデル(LLMs)に基づくシステムを設計し、LLMsが持つ人間の思考を活用して、同様の問題を持つ概念ペアを迅速に収集しました。

研究チームは、「Mixture of Concept Experts(MoCE)」という手法を提案し、順次描画の規則をdiffusion modelsの多段階サンプリングプロセスに組み込むことで、消失した茶碗を再現することに成功しました。

この手法は、サンプリングプロセス全体を2つの段階に分けます。第1段階では、見過ごされやすい概念のみを提供し、第2段階で完全なテキストプロンプトを使用します。この方法により、MoCEは画像生成時にテキストと画像の整合性をより正確に制御できます。

MoCE手法は、レベル5のLC-Mis概念ペアの割合を大幅に削減し、大量のデータ注釈コストを必要とするDall・E3(2023年10月版)をある程度凌駕しました。

さらに、研究チームは、既存の自動評価指標がこの種の新問題に直面した場合、明らかな欠陥があることを発見しました。例えば、一部の評価指標は、茶碗に入ったアイスコーラに低いスコアを与え、透明なガラスのコップに入ったアイスコーラには高いスコアを与えました。これは、AIのパフォーマンスを評価するツールでさえ、バイアスや限界が存在する可能性を示しています。

研究者たちは、今後の研究でより複雑なLC-Misシナリオを探求し、反復回数を減らすための学習可能な検索アルゴリズムを開発する予定です。また、データセットで使用されるモデルの種類、モデルのバージョン、サンプラーの種類を拡大し、データセット収集アルゴリズムを継続的に反復して、データセットを強化および拡大する予定です。

この研究は、AIの画像生成における限界を理解するための新たな視点を提供するだけでなく、AIの画像生成能力を向上させるための新たなアイデアと方法も提供します。技術の進歩に伴い、AIが人間の創造性を理解し再現する上で、より大きなブレイクスルーを期待しています。

プロジェクトアドレス:https://lcmis.github.io/

論文:https://arxiv.org/pdf/2408.00230