近年、大規模言語モデル(LLM)は人工知能分野で著しい進歩を遂げ、特にマルチモーダル融合において顕著な成果を上げています。華中科技大学、バイトダンス、香港大学の合同チームは最近、現在の主流マルチモーダルモデルが抱える画像処理上の限界を克服することを目指した、新しいマルチモーダル生成フレームワーク「Liquid」を発表しました。

image.png

従来のマルチモーダル大規模モデルは複雑な外部画像モジュールに依存しており、システムの複雑さを増すだけでなく、拡張性も制限していました。Liquidの革新的な点は、VQGANを画像トークナイザーとして採用し、外部画像コンポーネントへの依存を排除したこと。画像を離散的な視覚トークンにエンコードすることで、モデルがテキストトークンと直接単語表を共有できるようになり、「ネイティブ」な視覚理解と生成能力を実現しています。

image.png

研究によると、Liquidはトレーニングコストの削減だけでなく、マルチモーダル能力とLLMのスケール則についても明らかにしています。チームは0.5Bから32Bまでの様々な規模のLLMで実験を行い、モデル規模の拡大に伴い、画像生成タスクのパフォーマンスと生成品質が言語タスクと同様のスケール則に従うことを示しました。さらに素晴らしいことに、視覚理解と生成タスクの間に双方向の促進関係があり、共有された表現空間を通じて共同最適化が可能であることが分かりました。

Liquidのデザインはミニマリズムを反映しており、画像とテキストを同等に扱い、統一的な処理フレームワークを採用しています。構築においては、30Mのテキストデータと30Mの画像テキストペアデータを使用して、モデルのマルチモーダルトレーニングの基盤を築きました。最終的な実験結果は、Liquidがマルチモーダル理解、画像生成、純粋なテキストタスクにおいて優れた性能を示し、生成された画像とテキスト間の意味の一貫性が他の自己回帰モデルよりも大幅に高いことを示しています。

Liquidの発表は、汎用マルチモーダル知能のアーキテクチャ設計に新たな視点を与え、人工知能におけるマルチモーダル融合の未来がより効率的で柔軟な進化を迎える可能性を示唆しています。

論文リンク:https://arxiv.org/pdf/2412.04332