A Zhihu AI anunciou a atualização de código aberto do modelo CogVLM2-Video, um modelo que demonstra progresso significativo na área de compreensão de vídeo. O CogVLM2-Video resolve as limitações dos modelos existentes de compreensão de vídeo no tratamento da perda de informações temporais, introduzindo imagens de vídeo multi-frame e timestamps como entrada do codificador. O modelo utiliza um método automatizado de construção de dados de localização temporal, gerando 30.000 dados de perguntas e respostas de vídeo relacionados ao tempo, treinando assim um modelo que atinge o desempenho mais recente em benchmarks públicos de compreensão de vídeo. O CogVLM2-Video apresenta excelente desempenho na geração de legendas de vídeo e localização temporal, fornecendo uma ferramenta poderosa para tarefas como geração e resumo de vídeo.
O CogVLM2-Video permite que o modelo de linguagem saiba exatamente o tempo correspondente a cada quadro, extraindo quadros do vídeo de entrada e anotando informações de timestamp, permitindo assim a localização temporal e perguntas e respostas relacionadas.
Para treinamento em larga escala, foi desenvolvido um processo automatizado de geração de dados de perguntas e respostas de vídeo. Através da combinação do uso de modelos de compreensão de imagem e modelos de linguagem de grande porte, o custo de anotação foi reduzido e a qualidade dos dados foi melhorada. O conjunto de dados Temporal Grounding Question and Answer (TQA) finalmente construído contém 30.000 registros, fornecendo dados ricos de localização temporal para o treinamento do modelo.
Em vários conjuntos de avaliação públicos, o CogVLM2-Video demonstrou desempenho excepcional, incluindo desempenho excelente em métricas de avaliação quantitativa como VideoChatGPT-Bench e Zero-shot QA e MVBench.
Código:https://github.com/THUDM/CogVLM2
Site do projeto:https://cogvlm2-video.github.io
Teste online:http://36.103.203.44:7868/