MiniGPT4-Video
複雑な動画を理解し、詩を添えて説明するAIビデオモデル
一般製品ビデオ動画理解動画質疑応答
MiniGPT4-Videoは、時系列の視覚データとテキストデータを処理できる、動画理解のために設計されたマルチモーダル大規模言語モデルです。動画のタイトルや宣伝文句を作成でき、動画に関する質問応答にも対応しています。MiniGPT-v2をベースに、視覚主幹EVA-CLIPを組み合わせ、大規模な動画テキスト事前学習と動画質疑応答ファインチューニングを含む複数段階のトレーニングを経て開発されました。MSVD、MSRVTT、TGIF、TVQAベンチマークにおいて顕著な性能向上を実現しています。価格は未定です。
MiniGPT4-Video 最新のトラフィック状況
月間総訪問数
1900
直帰率
58.75%
平均ページ/訪問
1.3
平均訪問時間
00:00:01