智譜AIは、ビデオ理解分野で顕著な進歩を遂げたモデルであるCogVLM2-Videoモデルのオープンソースアップグレードを発表しました。CogVLM2-Videoは、複数のフレームのビデオ画像とタイムスタンプをエンコーダ入力として導入することで、既存のビデオ理解モデルが時間情報の欠落という問題を抱えていた点を解決しました。このモデルは、自動化された時間位置データ構築方法を利用して、時間関連のビデオ質疑応答データ3万件を生成し、公開されているビデオ理解ベンチマークで最先端の性能を達成するモデルをトレーニングしました。CogVLM2-Videoは、ビデオ字幕生成と時間位置特定において優れた性能を発揮し、ビデオ生成や要約などのタスクに強力なツールを提供します。
CogVLM2-Videoは、入力ビデオからフレームを抽出し、タイムスタンプ情報を付与することで、言語モデルが各フレームの対応する時間を正確に把握できるようにし、時間位置特定と関連する質疑応答を実現します。
大規模トレーニングのため、画像理解モデルと大規模言語モデルを組み合わせることで、アノテーションコストを削減し、データ品質を向上させる自動化されたビデオ質疑応答データ生成プロセスを開発しました。最終的に構築されたTemporal Grounding Question and Answer(TQA)データセットには3万件のレコードが含まれており、モデルのトレーニングに豊富な時間位置データを提供します。
複数の公開評価セットにおいて、CogVLM2-VideoはVideoChatGPT-BenchとZero-shot QA、MVBenchなどの定量評価指標で優れた性能を示しました。
コード:https://github.com/THUDM/CogVLM2
プロジェクトウェブサイト:https://cogvlm2-video.github.io
オンライン試用:http://36.103.203.44:7868/