北京の人工知能学院の研究チームが、OmniGenという新しい画像生成モデルを発表しました。
万能画像生成・編集ツール
Stable Diffusionなどの従来の画像生成ツールとは異なり、OmniGenは単一タスクに特化していません。複数の機能を備えています。
テキストから画像の生成、画像の編集など、様々な画像生成タスクを統一されたフレームワーク内で処理できます。まさに万能選手です。
つまり、ユーザーは簡単なプロンプトを入力するだけで、画像の生成と精密な編集を制御でき、ControlNetやIP-Adapterなどのプラグインを使って画像を詳細に調整する必要がなくなります!
AIbaseでは、古いカメラを使ったクリエイティブな写真の撮影をイメージした詳細なプロンプトを試してみました。生成された画像のディテールは素晴らしく、その効果は下記の通りです。
プロンプト:地面に置かれたビンテージカメラから、ポラロイド風の渦巻く写真が飛び出している。風景、野生動物、旅行のシーンが写った写真は、重力に逆らって渦巻きの中で上方に浮遊している。カメラからは内側から輝く煙のような光が放たれ、魔法的で超現実的な雰囲気を高めている。暗い背景は、光る写真とカメラとのコントラストを際立たせ、鮮やかな色とダイナミックな動きに満ちた、夢のようなノスタルジックなシーンを作り出している。散らばった写真が地面にあり、記憶の爆発というアイデアをさらに強調している。
さらに、以下の3つの公式事例のように、2枚の画像をアップロードし、関連するプロンプトを入力するだけで、それらを一つのシーンに融合させることができます。
OmniGenのアーキテクチャは非常にシンプルです。従来の画像生成モデルとは異なり、追加のテキストエンコーダや複雑なワークフローは必要ありません。条件を入力するだけで、OmniGenは効率的に画像を生成し、ユーザーエクスペリエンスを大幅に向上させます。変分オートエンコーダと事前学習済みのTransformerモデルを組み合わせることで、一つのモデルで画像とテキストの入力を同時に処理し、不要な複雑さを軽減しています。
画像生成効果を高めるために、OmniGenは修正流トレーニング方法を採用しています。この方法は、目標速度を直接回帰することで、画像生成の制御をより正確にします。さらに、漸進的なトレーニング戦略により、モデルは低解像度から高解像度へと段階的に生成技術を習得し、非常に優れた効果を実現しています。
OmniGenの画像生成能力は最先端モデルに匹敵
OmniGenのトレーニングデータセットは非常に大規模で多様であり、様々な画像生成タスクを網羅しているとのことです。モデルのマルチタスク処理能力を確保するために、研究者たちはテキストから画像への生成、画像編集などの複数のタスクのデータを含む大規模データセットX2Iを構築しました。これにより、OmniGenは様々なタスクから効果的に学習し、知識を転移させることができ、新たな生成能力を発揮します。
複数のテストで、OmniGenのパフォーマンスは驚くべきものでした。テキストから画像への生成においては、市場で最も高度なモデルと同等の性能を示しました。GenEvalベンチマークテストでは、OmniGenは1億枚の画像のみでトレーニングされましたが、SD3は10億枚以上の画像を使用しました。
画像編集能力も同様に優れており、ソース画像と編集指示を正確に制御できます。例えば、EMU-Editテストセットでは、InstructPix2Pixなどの有名なモデルを凌駕し、最先端のEMU-Editモデルにも匹敵する性能を示しました。
主体駆動型生成タスクでは、OmniGenは卓越したパーソナライズ能力を示し、芸術創作や広告デザインなど、様々な分野に適しています。
試用アドレス:https://huggingface.co/spaces/Shitao/OmniGen
論文:https://arxiv.org/html/2409.11340v1