Recentemente, a equipe do Meta AI apresentou o LongVU, um novo mecanismo de compressão espaço-temporal adaptativo projetado para melhorar a capacidade de compreensão de linguagem em vídeos longos. Os modelos de linguagem grandes multimodais (MLLMs) tradicionais enfrentam limitações de comprimento de contexto ao lidar com vídeos longos, e o LongVU foi criado para resolver esse problema.
O LongVU funciona principalmente filtrando quadros repetidos e comprimindo tokens entre quadros para usar o comprimento do contexto de forma eficiente, reduzindo informações redundantes no vídeo enquanto mantém os detalhes visuais.
Especificamente, a equipe usa recursos do DINOv2 para descartar quadros redundantes altamente semelhantes. Em seguida, por meio de consultas multimodais guiadas por texto, eles alcançam a redução seletiva de recursos de quadros.
Além disso, o LongVU aborda a dependência temporal entre quadros com uma estratégia de compressão inovadora de tokens espaciais. Essa estratégia permite que o LongVU processe um grande número de quadros dentro de um comprimento de contexto limitado, com quase nenhuma perda de informações visuais.
Em vários testes de benchmark de compreensão de vídeo, o LongVU superou outros métodos existentes, especialmente em tarefas que exigem a compreensão de vídeos de até uma hora, como VideoMME e MLVU. Mesmo em LLMs com recursos mais leves, o LongVU demonstra desempenho excelente, com um modelo de menor escala.
Em exemplos de aplicação do LongVU, os usuários podem obter descrições detalhadas de vídeos com perguntas simples. Por exemplo, se um usuário pergunta "Como está esse vídeo?", o LongVU pode descrever com precisão a cena, os personagens e suas interações no vídeo. Seja uma simples pergunta sobre objetos no vídeo ou uma descrição complexa da trama, o LongVU fornece feedback rápido e preciso.
Exemplo oficial:
Instrução do usuário: Por favor, forneça uma descrição detalhada do vídeo.
Resposta do LongVU: O vídeo começa com uma cena ambientada em uma cidade futurista à noite, onde um robô humanoide está em primeiro plano, de costas para a câmera, contra um pano de fundo de prédios iluminados e um helicóptero em voo. O cenário é caracterizado por uma mistura de elementos modernos e cyberpunk, com letreiros de néon e uma rua molhada refletindo as luzes da cidade. Conforme o vídeo progride, o robô permanece parado, com o helicóptero se aproximando, eventualmente pairando sobre a rua, indicando uma possível interação ou evento ocorrendo entre o robô e o helicóptero.
A cena muda então para um ambiente interno, provavelmente uma oficina ou garagem, repleta de vários equipamentos e máquinas eletrônicos. O robô agora está em primeiro plano, de frente para a câmera, com uma pessoa ao fundo, sugerindo uma progressão narrativa. O ambiente é desorganizado, com a iluminação lançando uma tonalidade azul sobre a cena, enfatizando o tema tecnológico.
Conforme o vídeo continua, o ângulo da câmera muda para mostrar o robô por trás, com a pessoa ao fundo agora mais visível, indicando movimento. O cenário da oficina permanece consistente, com a desordem e os equipamentos eletrônicos inalterados. A iluminação e o esquema de cores continuam a destacar a atmosfera tecnológica.
A perspectiva muda então para uma visão lateral do robô, revelando mais de sua estrutura e o ambiente desorganizado da oficina. A pessoa ao fundo agora está mais perto do robô, sugerindo interação ou movimento em sua direção. A iluminação e o esquema de cores permanecem consistentes, mantendo a atmosfera tecnológica.
Finalmente, a câmera aproxima o robô, focando em sua parte superior do corpo e nos detalhes intrincados de seus componentes internos. O ambiente desorganizado da oficina torna-se menos visível, com a iluminação lançando uma tonalidade azul sobre a cena, enfatizando o tema tecnológico. O close da câmera destaca o design do robô e a complexidade de seus mecanismos internos, sugerindo um foco narrativo no funcionamento interno do robô ou em seu papel dentro do cenário tecnológico.
O rápido crescimento do conteúdo de vídeo longo requer métodos de processamento mais eficientes. O lançamento do LongVU sem dúvida traz novas possibilidades para o campo da compreensão multimodal.
Link do projeto: https://vision-cair.github.io/LongVU/
Destaques:
1. 📽️ O LongVU é um novo mecanismo de compressão espaço-temporal adaptativo projetado para melhorar a capacidade de compreensão de linguagem em vídeos longos.
2. 🔍 Essa tecnologia usa recursos do DINOv2 para descartar quadros redundantes e, por meio de consultas multimodais, realiza a compressão seletiva de recursos.
3. 🚀 O LongVU apresentou desempenho superior em vários testes de benchmark de compreensão de vídeo, especialmente em tarefas de compreensão de vídeos longos, superando outros métodos.