Os modelos tradicionais de compreensão de vídeo enfrentam muitos desafios ao lidar com vídeos longos, incluindo a compreensão do contexto complexo que eles apresentam. Embora muitas pesquisas visem melhorar a capacidade de compreensão de vídeo, ainda é difícil superar eficazmente a baixa eficiência de treinamento e inferência. Para abordar esses problemas, a equipe de pesquisa utilizou a tecnologia HiCo para comprimir as partes redundantes das informações de vídeo, reduzindo significativamente a demanda computacional, ao mesmo tempo em que preserva informações essenciais.
Especificamente, o HiCo comprime o vídeo hierarquicamente, dividindo vídeos longos em segmentos curtos, reduzindo assim o número de tokens a serem processados. Este método não apenas reduz os requisitos de recursos computacionais do modelo, mas também aumenta a largura da janela de contexto, melhorando sua capacidade de processamento. Além disso, a equipe de pesquisa utilizou a associação semântica com a consulta do usuário para reduzir ainda mais o número de tokens de vídeo.
Na implementação específica do processamento de vídeos longos, o “VideoChat-Flash” emprega um esquema de aprendizado de vídeo curto para vídeo longo em várias etapas. Os pesquisadores primeiro usam vídeos curtos e suas anotações correspondentes para ajuste fino supervisionado, e depois introduzem gradualmente vídeos longos para treinamento, alcançando finalmente uma compreensão abrangente de material de comprimento misto. Essa abordagem não apenas melhora a capacidade de percepção visual do modelo, mas também fornece um rico suporte de dados para o processamento de vídeos longos, com a equipe de pesquisa construindo um vasto conjunto de dados contendo 300.000 horas de vídeo e 200 milhões de palavras de anotações.
Além disso, a pesquisa também propõe uma tarefa “agulha no palheiro” aprimorada para configuração de vídeo de múltiplos saltos. Com o novo benchmark, o modelo não apenas precisa encontrar uma única imagem de destino no vídeo, mas também precisa entender várias sequências de imagens inter-relacionadas, melhorando assim sua capacidade de compreensão de contexto.
Os resultados experimentais mostram que o método proposto reduz a computação em duas ordens de magnitude, apresentando desempenho excepcional em benchmarks de vídeo curto e longo, tornando-se um líder em novos campos de compreensão de vídeo curto. Ao mesmo tempo, o modelo também supera os modelos open source existentes na compreensão de vídeos longos, exibindo uma forte capacidade de localização temporal.
Artigo:https://arxiv.org/abs/2501.00574
Destaques:
🌟 Os pesquisadores propuseram a tecnologia de compressão hierárquica de tokens de vídeo HiCo, reduzindo significativamente a demanda computacional do processamento de vídeos longos.
📹 O sistema “VideoChat-Flash” emprega um método de aprendizado em várias etapas, combinando vídeos curtos e longos para treinamento, melhorando a capacidade de compreensão do modelo.
🔍 Os resultados experimentais mostram que o método atingiu novos padrões de desempenho em vários benchmarks, tornando-se um modelo avançado no campo de processamento de vídeos longos.