LLaVA-Video
ビデオ指示微調整と合成データ研究
一般製品ビデオビデオ理解多モーダル学習
LLaVA-Videoは、ビデオ指示微調整に特化した大規模多モーダルモデル(LMMs)です。高品質な大量の生のデータをウェブから取得する困難さを解決するために、高品質な合成データセットLLaVA-Video-178Kを作成しました。このデータセットには、詳細なビデオ説明、オープンエンドの質問応答、多肢選択式の質問応答などのタスクが含まれており、ビデオ言語モデルの理解力と推論能力の向上を目指しています。LLaVA-Videoモデルは複数のビデオベンチマークテストで優れた性能を示し、データセットの有効性を証明しています。
LLaVA-Video 最新のトラフィック状況
月間総訪問数
80956
直帰率
52.28%
平均ページ/訪問
1.2
平均訪問時間
00:00:34