智源研究院のEmu3チームが、全く新しいマルチモーダルモデル「Emu3」を発表しました。このモデルは、次のトークン予測のみを基にトレーニングされており、従来の拡散モデルや組み合わせモデルのアーキテクチャを覆し、生成と認識の両方のタスクにおいて最先端の性能を達成しています。

これまで、次のトークン予測は人工知能の汎用人工知能(AGI)への希望の道と考えられてきましたが、マルチモーダルタスクでは性能が劣っていました。現在、マルチモーダル分野は、Stable Diffusionなどの拡散モデルや、CLIPとLLMの組み合わせなどの組み合わせモデルが主流です。Emu3チームは、画像、テキスト、ビデオをすべて離散空間でトークン化し、混合マルチモーダルシーケンス上で単一のTransformerモデルをゼロからトレーニングすることで、拡散や組み合わせアーキテクチャに依存することなく、マルチモーダルタスクの統一を実現しました。

image.png

Emu3は、生成と認識の両方のタスクにおいて、既存の特定タスクモデル、さらにはSDXLやLLaVA-1.6などの主力モデルをも凌駕する性能を示しました。Emu3は、ビデオシーケンスの次のトークンを予測することで、高忠実度のビデオを生成することもできます。Soraがノイズからビデオを生成するためにビデオ拡散モデルを使用するのと異なり、Emu3はビデオシーケンスの次のトークンを予測することで、因果的にビデオを生成します。このモデルは、現実世界の環境、人物、動物のいくつかの側面をシミュレートし、与えられたビデオコンテキストに基づいて、次に何が起こるかを予測できます。

image.png

Emu3は複雑なマルチモーダルモデル設計を簡素化し、トークンに焦点を当てることで、トレーニングと推論プロセスにおける大きな拡張の可能性を解き放ちました。研究結果から、次のトークン予測は、言語を超えた汎用マルチモーダル知能を構築するための効果的な方法であることが示されました。この分野のさらなる研究を支援するために、Emu3チームは、ビデオと画像を離散トークンに変換できる強力なビジュアルトークナイザーを含む、重要な技術とモデルをオープンソース化しました。これは、以前は公開されていませんでした。

Emu3の成功は、マルチモーダルモデルの将来の発展の方向性を示すとともに、AGI実現への新たな希望をもたらしました。

プロジェクトアドレス: https://github.com/baaivision/Emu3