北京智源人工智能研究院は、大規模自己回帰生成式マルチモーダル事前学習を用いた新世代マルチモーダル基盤モデル「Emu2」を発表しました。これは、マルチモーダルコンテキスト学習能力の飛躍的な向上をもたらします。
Emu2は、少样本マルチモーダル理解タスクにおいて優れた性能を示し、主流のマルチモーダル事前学習大規模モデルであるFlamingo-80BやIDEFICS-80Bを上回りました。少样本理解、視覚的質問応答、画像生成などの複数のタスクにおいて最良の性能を達成しています。
Emu2-Chatは、画像とテキストの指示を正確に理解し、より優れた情報認識、意図理解、意思決定計画を実現します。
Emu2-Genは、画像、テキスト、位置情報を交互に並べたシーケンスを入力として受け入れ、柔軟で制御可能な高品質の画像と動画の生成を可能にします。
Emu2は、よりシンプルなモデリングフレームワークを採用し、370億パラメータ規模のモデルとなっています。
詳細は、北京智源人工智能研究院が公開したプロジェクトリンクをご参照ください。(リンクはここに挿入してください)