マルチモーダル大規模言語モデル(MLLMs)の進歩により、画像や動画関連のタスク(ビジュアルクエスチョン・アンサー、ナレーション生成、インタラクティブ編集など)は革命的な進歩を遂げました。しかし、動画内容の細かい理解を実現するには、依然として大きな課題が残されています。この課題には、ピクセルレベルのセグメンテーション、言語記述付きのトラッキング、特定の動画プロンプトに対するビジュアルクエスチョン・アンサーなどのタスクが含まれます。
現在の最先端の動画認識モデルは、セグメンテーションやトラッキングタスクで優れた性能を発揮していますが、オープンエンドな言語理解や対話能力はまだ不十分です。さらに、動画MLLMsは動画理解やクエスチョン・アンサータスクでは良好な結果を示しますが、知覚タスクやビジュアルプロンプトの処理には依然として課題があります。
既存の解決策には、主にマルチモーダル大規模言語モデル(MLLMs)と参照セグメンテーションシステムの2種類があります。MLLMsは当初、マルチモーダル融合手法や特徴抽出器の改良に焦点を当てていましたが、徐々にLLMsに対する指示調整フレームワーク(LLaVAなど)へと発展しました。最近では、LLaVA-OneVisionのように、画像、動画、複数画像の分析を単一のフレームワークに統合しようとする試みも行われています。同時に、参照セグメンテーションシステムも、基本的な融合モジュールからセグメンテーションとトラッキングの統合へと進化しています。しかし、これらの解決策は、知覚能力と言語理解能力の包括的な統合において依然として不十分です。
UC Merced、バイトダンスシードチーム、武漢大学、北京大学の研究者らは、画像と動画の緻密な基礎理解を実現することを目指した、画期的な統合モデルであるSa2VAを提案しました。このモデルは、ワンショット指示調整を最小限に抑えることで、幅広い画像と動画タスクに対応し、既存のマルチモーダル大規模言語モデルの限界を克服しています。
Sa2VAは革新的にSAM-2とLLaVAを統合し、テキスト、画像、動画を共有LLMトークンスペースに統一しました。さらに、研究者らは、72,000を超える複雑な動画シーンにおけるオブジェクト表現と、2,000の人的検証済みの動画オブジェクトを含む、Ref-SAVという大規模な自動アノテーションデータセットを公開し、堅牢なベンチマーク能力を確保しました。
Sa2VAのアーキテクチャは、主にLLaVAのようなモデルとSAM-2の2つの部分で構成されており、新規のデカップリング設計を採用しています。LLaVAのようなコンポーネントには、画像と動画を処理するビジュアルエンコーダ、ビジュアルプロジェクションレイヤー、テキストトークン予測用のLLMが含まれます。このシステムは独自のデカップリング方式を採用しており、SAM-2は事前学習済みのLLaVAモデルの隣で動作し、直接的なトークン交換を行わないため、計算効率を維持し、様々な事前学習済みMLLMsとのプラグアンドプレイ接続を可能にしています。
研究結果によると、Sa2VAは参照セグメンテーションタスクで最先端の結果を達成しており、Sa2VA-8BモデルはRefCOCO、RefCOCO+、RefCOCOgでそれぞれ81.6、76.2、78.9のcIoUスコアを達成し、GLaMM-7Bなどの従来のシステムを上回っています。対話能力においては、MME、MMbench、SEED-Benchでそれぞれ2128、81.6、75.1という優れた成績を収めました。
さらに、Sa2VAは動画ベンチマークテストでも従来の最先端のVISA-13Bを大幅に上回る性能を示し、画像と動画理解タスクにおける高い効率性と有効性を示しました。
論文:https://arxiv.org/abs/2501.04001
モデル:https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093
要点:
🌟 Sa2VAは、画像と動画の深い理解を実現する新規の統合AIフレームワークであり、既存のマルチモーダルモデルの限界を克服しています。
📊 このモデルは、参照セグメンテーションや対話能力など、複数のベンチマークテストで最先端の成績を収め、優れた性能を示しました。
🧠 Sa2VAの設計は、デカップリング方式によって視覚と言語の理解能力を効果的に統合し、幅広い画像と動画タスクに対応しています。