Video-CCAM
Modelo de video multilingüe ligero y flexible desarrollado por el equipo de investigación multimedia de Tencent QQ.
Producto ComúnVideoComprensión de vídeoModelo multilingüe
Video-CCAM es una serie de modelos de video multilingües flexibles (Video-MLLM) desarrollados por el equipo de investigación multimedia de Tencent QQ, dedicados a mejorar la capacidad de comprensión de video-lenguaje, especialmente adecuados para el análisis de videos cortos y largos. Logra esto mediante máscaras de atención cruzada causal (Causal Cross-Attention Masks). Video-CCAM ha demostrado un rendimiento superior en varias pruebas de referencia, especialmente en MVBench, VideoVista y MLVU. El código fuente del modelo se ha reescrito para simplificar el proceso de implementación.
Video-CCAM Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34