北京智源人工智能研究院は、ネイティブマルチモーダル世界モデルEmu3を発表しました。このモデルは、次のトークン予測技術に基づいており、拡散モデルや組み合わせ手法に依存することなく、テキスト、画像、ビデオの3種類のモーダルデータの理解と生成を可能にします。Emu3は、画像生成、ビデオ生成、視覚言語理解などのタスクにおいて、SDXL、LLaVA、OpenSoraなどの既存の著名なオープンソースモデルを上回り、卓越した性能を示しました。

微信截图_20241021135044.png

Emu3モデルの中核は、強力なビジュアルトクナイザーです。これは、ビデオと画像を離散トークンに変換し、これらのトークンは、テキストトクナイザーが出力する離散トークンと共にモデルに送られます。モデルが出力する離散トークンは、テキスト、画像、ビデオに変換でき、Any-to-Anyタスクに統一的な研究パラダイムを提供します。さらに、Emu3の次のトークン予測フレームワークの柔軟性により、直接的選好最適化(DPO)を自己回帰視覚生成にシームレスに適用でき、モデルと人間の選好を一致させることができます。

微信截图_20241021135121.png

Emu3の研究結果は、次のトークン予測がマルチモーダルモデルの強力なパラダイムとして機能し、言語を超えた大規模なマルチモーダル学習を実現し、マルチモーダルタスクで最先端の性能を実現することを示しています。複雑なマルチモーダル設計をトークン自体に収束させることで、Emu3は大規模なトレーニングと推論において大きな可能性を秘めています。この成果は、マルチモーダルAGI構築のための明るい展望を示しています。

現在、Emu3の主要な技術とモデルは、SFT済みのチャットモデルと生成モデル、それに対応するSFTトレーニングコードを含め、オープンソース化されており、今後の研究やコミュニティによる構築と統合が可能です。

コード: https://github.com/baaivision/Emu3

プロジェクトページ: https://emu.baai.ac.cn/

モデル: https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f