LLaVA-Video

ビデオ指示微調整と合成データ研究

一般製品ビデオビデオ理解多モーダル学習
LLaVA-Videoは、ビデオ指示微調整に特化した大規模多モーダルモデル(LMMs)です。高品質な大量の生のデータをウェブから取得する困難さを解決するために、高品質な合成データセットLLaVA-Video-178Kを作成しました。このデータセットには、詳細なビデオ説明、オープンエンドの質問応答、多肢選択式の質問応答などのタスクが含まれており、ビデオ言語モデルの理解力と推論能力の向上を目指しています。LLaVA-Videoモデルは複数のビデオベンチマークテストで優れた性能を示し、データセットの有効性を証明しています。
ウェブサイトを開く

LLaVA-Video 最新のトラフィック状況

月間総訪問数

80956

直帰率

52.28%

平均ページ/訪問

1.2

平均訪問時間

00:00:34

LLaVA-Video 訪問数の傾向

LLaVA-Video 訪問地理的分布

LLaVA-Video トラフィックソース

LLaVA-Video 代替品