SlowFast-LLaVA
訓練不要の、ビデオ理解と推論のための巨大言語モデル。
一般製品生産性ビデオ質問応答マルチモーダル学習
SlowFast-LLaVAは、ビデオ理解と推論のために設計された、訓練不要のマルチモーダル巨大言語モデルです。いかなるデータに対してもファインチューニングを行うことなく、様々なビデオ質問応答タスクやベンチマークにおいて、最先端のビデオ巨大言語モデルと同等、あるいはそれ以上の性能を達成します。
SlowFast-LLaVA 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34