Atualmente, os grandes modelos de linguagem multimodal (MLLM) alcançaram progressos significativos na compreensão de vídeo, mas o processamento de vídeos extremamente longos ainda representa um desafio. Isso ocorre porque os MLLMs geralmente têm dificuldades em lidar com milhares de tokens visuais que excedem o comprimento máximo de contexto e são afetados pela atenuação de informações causada pela agregação de tokens. Ao mesmo tempo, um grande número de tokens de vídeo também acarreta altos custos computacionais.
Para resolver esses problemas, o Instituto de Inteligência Artificial de Pequim (BAAI), em colaboração com várias universidades, como a Universidade Jiao Tong de Xangai, a Universidade do Povo Chinês, a Universidade de Pequim e a Universidade de Ciência e Tecnologia de Pequim, propôs o Video-XL, um modelo de linguagem visual ultralongo projetado para a compreensão eficiente de vídeos de horas de duração. O núcleo do Video-XL reside na técnica de "resumo latente de contexto visual", que utiliza a capacidade inerente de modelagem de contexto do LLM para comprimir eficientemente representações visuais longas em um formato mais compacto.
Em termos simples, trata-se de comprimir o conteúdo do vídeo em um formato mais conciso, como concentrar uma vaca inteira em uma tigela de caldo de carne, facilitando a digestão e absorção pelo modelo.
Essa técnica de compressão não apenas aumenta a eficiência, mas também preserva eficazmente as informações essenciais do vídeo. É importante lembrar que vídeos longos costumam conter muitas informações redundantes, como um lençol sem fim. O Video-XL consegue remover precisamente essas informações desnecessárias, mantendo apenas o essencial, garantindo que o modelo não se perca ao compreender o conteúdo de vídeos longos.
O Video-XL não apenas apresenta uma teoria sólida, mas também demonstra uma capacidade prática impressionante. Em vários testes de benchmark de compreensão de vídeos longos, o Video-XL obteve resultados superiores, especialmente no teste VNBench, onde sua precisão superou em quase 10% os métodos existentes.
Ainda mais impressionante é o equilíbrio surpreendente entre eficiência e desempenho alcançado pelo Video-XL. Ele consegue processar vídeos de 2048 frames em uma única GPU de 80 GB, mantendo uma precisão de quase 95% na avaliação de "busca na agulha no palheiro".
As perspectivas de aplicação do Video-XL também são amplas. Além de compreender vídeos longos comuns, ele também pode lidar com tarefas específicas, como resumo de filmes, detecção de anomalias em monitoramento e identificação de inserções de anúncios.
Isso significa que, no futuro, assistir a filmes não exigirá mais tolerar enredos longos. Podemos usar o Video-XL para gerar um resumo conciso, economizando tempo e esforço; ou utilizá-lo para monitorar imagens de vigilância, identificando automaticamente eventos anormais, com eficiência muito maior do que a vigilância humana.
Endereço do projeto: https://github.com/VectorSpaceLab/Video-XL
Artigo: https://arxiv.org/pdf/2409.14485