チャイナZ(ChinaZ.com)6月17日 ニュース: 近日、智譜、清華大学、北京大学が共同で、LVBenchという長尺ビデオ理解ベンチマークプロジェクトを発表しました。既存のマルチモーダル大規模言語モデルは短尺ビデオの理解において大きな進歩を遂げていますが、数時間にも及ぶ長尺ビデオの処理には依然として課題が残されています。この課題を解決するために、LVBenchが開発されました。
このプロジェクトには、公開ソースから得られたテレビドラマ、スポーツ中継、日常監視映像など、様々なタイプのビデオコンテンツを含む、6つの主要カテゴリと21のサブカテゴリに分類された数時間分のQAデータが含まれています。これらのデータはすべて高品質にアノテーションされており、LLMを使用して難易度の高い問題が選別されています。LVBenchデータセットは、ビデオ要約、イベント検出、人物認識、シーン理解など、多様なタスクを網羅しています。
LVBenchベンチマークの発表は、長尺ビデオ環境下でのモデルの推論能力と動作能力を検証することを目的とするだけでなく、関連技術のブレークスルーとイノベーションを促進し、長尺ビデオ分野における具象的なインテリジェント意思決定、詳細な映画評論、専門的なスポーツ解説などのアプリケーションニーズに新たな原動力をもたらすことを目指しています。
多くの研究機関が既にLVBenchデータセットを用いた研究に着手しており、長尺ビデオタスクに対応した大規模モデルを構築することで、人工知能による長期的な情報の流れの理解における限界を徐々に拡大し、ビデオ理解、マルチモーダル学習などの分野における継続的な探求に新たな活力を注入しています。
github:https://github.com/THUDM/LVBench
プロジェクト:https://lvbench.github.io
論文:https://arxiv.org/abs/2406.08035