アリババ通義实验室の最新研究によると、既存のテキストから画像を生成するDiffusion Transformerモデルは、特定の関係を持つ複数の画像を生成する能力を既に備えており、少し「ヒント」を与えるだけで「融会貫通」し、高品質の複数画像セットを生成できることが分かりました。

従来のDiffusionモデルは、「暗記」が得意な生徒のようなもので、高品質な画像を生成するには膨大なデータによる学習が必要でした。

しかし、IC-LoRAの活用により、このモデルは「類推」が得意な秀才へと変貌を遂げ、少量のサンプルだけで新しいスキルを習得できるようになりました。

image.png

その原理は複雑ではありません。研究者らは、既存のテキストから画像を生成するDiffusionモデルは、既に「コンテキスト学習」能力をある程度備えていることに気づきました。必要なのは、それを活性化するためのテクニックです。

いくつかの実験で、既存のテキストから画像を生成するモデルを使って複数の画像を直接生成したところ、モデルは画像間の関係を理解し、一貫性のある画像セットを生成できることが分かりました。まだ小さな欠陥はありますが、非常に大きな成果です。

そこで、Diffusionモデルの「コンテキスト学習」能力を呼び覚ますための、シンプルで効果的な手順を考案しました。

  • 複数の画像を1枚の大きな画像に連結することです。従来のようにトークンを連結するのではなく、Diffusionモデルで直接画像を処理します。抽象的なトークンではなく、画像そのものを扱うことで、より効果的です。

  • 各画像の説明文を1つの長いプロンプトに統合することで、モデルは複数の画像の情報とそれらの関係を同時に処理できます。

例:

image.png

プロンプト:「この冒険的な3枚の画像シリーズでは、[IMAGE1]勇敢な考古学者イーサンは、荒々しい外見で、陽光が降り注ぐ砂漠の発掘現場で古代の地図を発見します。砂を払い落とすと、彼の興奮は明らかです。[IMAGE2]活気のある外国の街の賑やかな市場へと移り変わり、イーサンは地元の商人との交渉を行い、任務に必要な品々を集めます。[IMAGE3]最後に、イーサンは濃密で霧のかかったジャングルを踏破し、そびえ立つ木々とエキゾチックな野生動物が、彼の旅の困難と神秘性を強調しています。」

image.png

プロンプト:「魅力的な粘り強さの物語の中で、[IMAGE1]私たちは決意に満ちた表情のレナという勇敢な少女が、不毛の野原に種をまく様子を見ます。[IMAGE2]彼女が植物を育て、毎日水をやり、彼女の努力が徐々に実を結ぶ様子へと移り変わります。[IMAGE3]最後は、生命力あふれる緑豊かな庭園で締めくくり、レナは自分の創造物に誇らしげに立ち、成長と忍耐を象徴しています。」

  • 少量の高品質な画像セットでモデルを微調整することです。従来のように数十万枚の画像で大量学習を行う必要はありません。これにより、計算資源を節約し、モデルが元々持っていた知識と「コンテキスト学習」能力を維持できます。

最終的なIC-LoRAモデルは非常にシンプルで、既存のテキストから画像を生成するモデルを一切変更する必要はありません。タスクに合わせて少量のトレーニングデータだけを調整するだけで済みます。

例えば、Stable Diffusionに漫画風の画像生成を学習させたい場合、数枚の漫画画像でIC-LoRAモデルを訓練するだけで、様々な漫画を生成できます。「すぐに理解する」と言っても過言ではありません。

image.png

プロンプト:「この2枚の画像は、写実的な肖像画から遊び心のあるイラストへの変化を表しており、細部と芸術的な才能を捉えています。[IMAGE1]写真では、女性が賑やかな市場に立ち、つば広帽子をかぶり、ゆったりとしたボヘミアン風の衣装を着て、革製のショルダーバッグを持っています。[IMAGE2]イラスト版では、彼女のアクセサリーと特徴が強調され、ボヘミアン風のドレスは鮮やかな柄と大胆な色で描かれ、背景は抽象的な市場の屋台に簡素化され、シーンに活気と活発さを与えています。」

さらにIC-LoRAを強化するために、研究者らは画像条件付き生成機能を追加しました。簡単に言うと、既存の画像に基づいて新しい画像を生成する機能です。例えば、人物写真から表情やポーズの異なる画像を生成する、風景写真から天候や光線の異なる画像を生成するなどです。

例:

image.png

プロンプト:「この4枚の画像は、老婦人が自分の庭の手入れをする静かな瞬間を捉えています。[IMAGE1]彼女は満開の花壇にひざまずき、両手で優しくバラの枝を剪定しています。柔らかな朝の光が彼女の銀色の髪を照らしています。[IMAGE2]彼女はじょうろの前に立ち、植物を育てる際に穏やかで平和な表情をしています。[IMAGE3]クローズアップでは、彼女が手の中に咲こうとしている花を見つめながら満足げな笑顔を見せており、誇りと喜びが明らかです。[IMAGE4]彼女は小さな長椅子に座り、彼女の庭で紅茶を飲み、彼女の勤勉の成果である鮮やかな色彩に囲まれています。」

image.png

プロンプト:「この2枚の画像は、砂嵐がスポーツシーンに与える変革的な影響を示しています。[IMAGE1]緑豊かな芝生の上で、アメリカンフットボールチームの焦点となっているのは、明るい日差しの中でフットボールを持っている選手です。[IMAGE2]同じ選手に切り替わり、彼は劇的な砂嵐と雷の効果に包まれています。塵が彼の周りに渦巻き、薄暗く暗いグラウンドに激しい砂嵐の効果を作り出しています。」

テストの結果、IC-LoRAは人物肖像、フォントデザイン、インテリアデザイン、映画のストーリーボード、視覚効果など、様々な画像生成タスクで高品質な結果を得ることができました。「十八番の技をすべてマスターしている」と言っても過言ではありません。

IC-LoRAの登場は、AI画像生成分野にとって、間違いなく画期的な進歩です。AIモデルのトレーニングコストを大幅に削減し、より多くの人がAI創作に参加できるようになりました。

将来、IC-LoRAがさらに発展していくにつれて、AIが誰もが簡単に利用できる創作ツールとなり、誰もがアーティストになれると信じる理由があります。

プロジェクトアドレス:https://ali-vilab.github.io/In-Context-LoRA-Page/