Video-CCAM
Modelo de vídeo multilíngue leve e flexível desenvolvido pela equipe de pesquisa de multimídia do Tencent QQ.
Produto ComumVídeoCompreensão de vídeoModelo multilíngue
O Video-CCAM é uma série de modelos de vídeo multilíngues flexíveis (Video-MLLM) desenvolvidos pela equipe de pesquisa de multimídia do Tencent QQ, dedicados a melhorar a capacidade de compreensão de vídeo-linguagem, especialmente adequado para análise de vídeos curtos e longos. Ele atinge esse objetivo por meio de máscaras de atenção cruzada causal (Causal Cross-Attention Masks). O Video-CCAM apresentou desempenho superior em vários testes de referência, especialmente no MVBench, VideoVista e MLVU. O código-fonte do modelo foi reescrito para simplificar o processo de implantação.
Video-CCAM Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34