人工知能(AI)による画像生成分野は目覚ましい進歩を遂げていますが、AIが様々なシーンで複数回創作を行う際、画像内の特定のキャラクターや物体の整合性を維持することが、業界における大きな課題となっていました。先日、バイトダンス傘下のインテリジェントクリエイションチームは、最新のオープンソースプロジェクトUNOを発表しました。これは革新的な技術によって、特に画像の主題の一貫性を維持しながら、より強力な生成制御を可能にすることを目指し、AI画像生成分野に新たなブレークスルーをもたらしました。
AIイラストの「顔盲症」?UNOが「主人公」を記憶
従来のAI画像生成プロセスでは、同じ説明を入力しても、生成される人物や物体の外観に大きな違いが生じる可能性がありました。そのため、キャラクターや物体のイメージを異なる画像で統一する必要があるアプリケーションシナリオでは、多くの不便が生じていました。例えば、シリーズ漫画やストーリー絵本を作成する際に、主人公の容姿が常に変化すると、ユーザーエクスペリエンスに大きな影響を与えます。UNOプロジェクトの中心的な目標は、まさにこの「顔盲症」の問題を解決し、AIが画像生成時にユーザーが継続的に維持したい主題を正確に「記憶」できるようにすることです。
核心技術:データ合成とモデルの革新
UNOが高整合性の画像生成を実現できるのは、提案された高整合性データ合成プロセスによるものです。このプロセスは、拡散モデル(Diffusion Transformers、略してDiT)の固有のコンテキスト生成能力を最大限に活用し、高度に整合性のあるマルチサブジェクトペアデータを作成します。
さらに、UNOモデル自体も革新的な設計がされており、漸進的なクロスモーダルアラインメント(progressive cross-modal alignment)とユニバーサルロータリーポジションエンコーディング(universal rotary position embedding)が含まれています。これらの技術により、UNOはテキストと画像情報をより適切に理解および調整し、マルチサブジェクト駆動の生成プロセスにおいて高整合性と制御可能性を実現できます。
機能のハイライト:シングルサブジェクトとマルチサブジェクトのシーンの両方を制御可能
UNOの優れた点は、シングルサブジェクトとマルチサブジェクト駆動の画像生成の両方をサポートし、生成結果の高整合性を確保できることです。つまり、単一のキャラクターのイメージを変化させない必要がある場合でも、複数の特定のオブジェクトを含むシーンでそれぞれの特性を維持する必要がある場合でも、UNOは対応できます。
複数の画像条件を入力