多様なモダリティを生成するモデルが、人工知能の最新のトレンドを牽引しています。これは、視覚データとテキストデータを融合し、様々なタスクを実行できるシステムを作り出すことを目指しています。テキストの説明に基づいて高精細な画像を生成することから、データタイプを跨いでの理解と推論まで、よりインタラクティブでインテリジェントなAIシステムの誕生を促し、視覚と言語をシームレスに統合しています。
この分野における重要な課題の1つは、テキストの説明に基づいてリアルな画像を生成できる自己回帰(AR)モデルの開発です。拡散モデルはこの分野で著しい進歩を遂げていますが、自己回帰モデルの性能は比較的遅れており、特に画像の質、解像度の柔軟性、様々な視覚タスクを処理する能力において顕著です。この差は、研究者たちにARモデルの能力向上のための革新的な方法を探すよう促しています。
現在、テキストから画像を生成する分野は、主に拡散モデルが占めており、これらのモデルは高品質で視覚的に魅力的な画像を生成することに優れています。しかし、LlamaGenやPartiなどのARモデルは、この点で劣っています。これらは複雑なエンコーダ-デコーダアーキテクチャに依存し、通常は固定解像度の画像しか生成できません。この制限は、多様な高解像度出力の生成における柔軟性と効率性を大幅に低下させます。
このボトルネックを打破するために、上海AI研究所と香港中文大学の研究者たちは、これらの制限を克服することを目指した高度なARモデルであるLumina-mGPTを発表しました。Lumina-mGPTはデコーダのみのトランスフォーマーアーキテクチャに基づいており、多様なモダリティ生成事前学習(mGPT)の方法を採用しています。このモデルは視覚と言語のタスクを統一されたフレームワークに統合し、拡散モデルと同等のリアルな画像生成を実現しながら、AR手法の簡潔さと拡張性を維持することを目標としています。
Lumina-mGPTは、画像生成能力の向上において、包括的なアプローチを採用しています。その核心は、柔軟な漸進的監督微調整(FP-SFT)戦略です。この戦略は、低解像度から段階的にモデルを訓練し、高解像度の画像を生成します。まず低解像度で一般的な視覚的概念を学習し、その後、より複雑な高解像度の詳細を段階的に導入します。さらに、このモデルは、特定の高さや幅の指示子と行末トークンを導入することで、可変的な画像解像度とアスペクト比に関連する曖昧さを解消する、革新的な明示的な画像表現システムを導入しています。
性能面では、Lumina-mGPTは、リアルな画像生成において、以前のARモデルを大幅に凌駕しています。1024×1024ピクセルの高解像度画像を生成でき、細部まで豊かで、提供されたテキストプロンプトと高度に一致しています。研究者たちは、Lumina-mGPTはLlamaGenに必要な500万ペアの画像-テキストデータよりもはるかに少ない、1000万ペアの画像-テキストデータだけで訓練できることを報告しています。データセットが小さいにもかかわらず、Lumina-mGPTは画像の質と視覚的一貫性において競合他社を上回っています。さらに、このモデルは、視覚的な質問応答、密集したアノテーション、制御可能な画像生成など、様々なタスクをサポートしており、多様なモダリティに対応できる柔軟性を示しています。
その柔軟で拡張可能なアーキテクチャは、Lumina-mGPTが多様で高品質な画像を生成する能力をさらに強化しています。このモデルは、分類器なしガイダンス(CFG)などの高度なデコーディング技術を使用しており、生成画像の品質向上に重要な役割を果たしています。例えば、温度やtop-k値などのパラメータを調整することで、Lumina-mGPTは生成画像の詳細と多様性を制御し、視覚的なアーティファクトを減らし、全体的な美しさを向上させることができます。
Lumina-mGPTは、自己回帰画像生成分野における大きな進歩を示しています。上海AI研究所と香港中文大学の研究者によって開発されたこのモデルは、ARモデルと拡散モデルの橋渡しに成功し、テキストからリアルな画像を生成するための強力な新しいツールを提供します。多様なモダリティの事前学習と柔軟な微調整における革新的な方法は、ARモデルの可能性のある変革能力を示しており、将来、より複雑で多才なAIシステムが誕生することを予感させます。
プロジェクトアドレス:https://top.aibase.com/tool/lumina-mgpt
オンライン試用アドレス:https://106.14.2.150:10020/