Video-CCAM
Ein leichtgewichtiges, flexibles, mehrsprachiges Videomodell, entwickelt vom Tencent QQ Multimedia Research Team.
Normales ProduktVideoVideoanalyseMehrsprachiges Modell
Video-CCAM ist eine Reihe flexibler, mehrsprachiger Videomodelle (Video-MLLM), die vom Tencent QQ Multimedia Research Team entwickelt wurden. Sie zielen darauf ab, das Verständnis von Video-Sprache zu verbessern, insbesondere für die Analyse von Kurz- und Langvideos. Dies wird durch kausale Cross-Attention-Masken (Causal Cross-Attention Masks) erreicht. Video-CCAM erzielt in mehreren Benchmark-Tests hervorragende Ergebnisse, insbesondere bei MVBench, VideoVista und MLVU. Der Quellcode wurde überarbeitet, um die Bereitstellung zu vereinfachen.
Video-CCAM Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34