Video-CCAM

Modelo de vídeo multilíngue leve e flexível desenvolvido pela equipe de pesquisa de multimídia do Tencent QQ.

Produto ComumVídeoCompreensão de vídeoModelo multilíngue
O Video-CCAM é uma série de modelos de vídeo multilíngues flexíveis (Video-MLLM) desenvolvidos pela equipe de pesquisa de multimídia do Tencent QQ, dedicados a melhorar a capacidade de compreensão de vídeo-linguagem, especialmente adequado para análise de vídeos curtos e longos. Ele atinge esse objetivo por meio de máscaras de atenção cruzada causal (Causal Cross-Attention Masks). O Video-CCAM apresentou desempenho superior em vários testes de referência, especialmente no MVBench, VideoVista e MLVU. O código-fonte do modelo foi reescrito para simplificar o processo de implantação.
Abrir Site

Video-CCAM Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

Video-CCAM Tendência de Visitas

Video-CCAM Distribuição Geográfica das Visitas

Video-CCAM Fontes de Tráfego

Video-CCAM Alternativas