智源、ネイティブマルチモーダル世界モデルEmu3を発表：次のトークンの予測のみで、テキスト、画像、ビデオの理解と生成を実現

智源研究院は、次世代マルチモーダル世界モデルEmu3を正式に発表しました。このモデルの最大の特徴は、次のトークンの予測能力のみを頼りに、テキスト、画像、動画という3つの異なるモダリティを理解し、生成できる点です。

画像生成において、Emu3はビジュアルトークンの予測に基づいて高品質な画像を生成できます。つまり、ユーザーは柔軟な解像度と多様なスタイルを期待できます。

動画生成においては、Emu3は他のモデルのようにノイズから動画を生成するのではなく、順次予測によって直接動画を生成するという全く新しい方法を採用しています。この技術の進歩により、動画生成はよりスムーズで自然なものになりました。

画像生成、動画生成、視覚言語理解などのタスクにおいて、Emu3の性能はSDXL、LLaVA、OpenSoraなどの著名なオープンソースモデルを凌駕しています。その背景には、動画や画像を離散的なトークンに変換できる強力なビジュアルトクーナイザーがあり、この設計はテキスト、画像、動画の統一的な処理に新たな視点をもたらしました。

例えば、画像理解において、ユーザーは簡単な質問を入力するだけで、Emu3は画像の内容を正確に記述できます。

Emu3は動画予測機能も備えています。動画が与えられると、Emu3は既存の内容に基づいて、次に何が起こるかを予測できます。そのため、シミュレーション環境、人間や動物の行動において高い能力を示し、ユーザーによりリアルなインタラクティブ体験を提供します。

さらに、Emu3の設計の柔軟性も目新しく、人間の好みに合わせて直接最適化できるため、生成されるコンテンツはユーザーの期待により合致するようになります。そして、Emu3はオープンソースモデルであるため、技術コミュニティで活発に議論されており、多くの人がこの成果がマルチモーダルAIの発展の様相を根本的に変えるだろうと考えています。

プロジェクトウェブサイト:https://emu.baai.ac.cn/about

論文:https://arxiv.org/pdf/2409.18869

要点:
🌟 Emu3は次のトークンの予測によって、テキスト、画像、動画のマルチモーダル理解と生成を実現しました。
🚀 複数のタスクにおいて、Emu3の性能は多くの著名なオープンソースモデルを上回り、その強力な能力を示しました。
💡 Emu3の柔軟な設計とオープンソースの特性は、開発者にとって新たな機会を提供し、マルチモーダルAIの革新と発展を促進する可能性があります。