Recientemente, el equipo de Meta AI presentó LongVU, un novedoso mecanismo de compresión espacio-temporal adaptativo diseñado para mejorar la comprensión del lenguaje en videos largos. Los modelos de lenguaje grandes multimodales (MLLM) tradicionales enfrentan limitaciones en la longitud del contexto al procesar videos largos, y LongVU nace para solucionar este problema.
El funcionamiento de LongVU se basa principalmente en métodos como el filtrado de fotogramas repetidos y la compresión de tokens entre fotogramas para utilizar eficientemente la longitud del contexto, lo que permite reducir la información redundante en el video mientras se mantienen los detalles visuales.
Específicamente, el equipo utiliza las características de DINOv2 para descartar fotogramas redundantes altamente similares. Luego, a través de una consulta multi-modal guiada por texto, se logra reducir selectivamente las características de los fotogramas.
Además, LongVU aborda la dependencia temporal entre fotogramas mediante una innovadora estrategia de compresión de tokens espaciales. Esta estrategia permite a LongVU procesar eficazmente una gran cantidad de fotogramas dentro de una longitud de contexto limitada, con una pérdida mínima de información visual.
En diversas pruebas de referencia de comprensión de video, LongVU superó a otros métodos existentes, especialmente en tareas que requieren comprender videos de hasta una hora de duración, como VideoMME y MLVU. Incluso con LLM de recursos más ligeros, LongVU muestra un rendimiento excelente con un tamaño de modelo reducido.
En los ejemplos de aplicación de LongVU, los usuarios pueden obtener descripciones detalladas del video con preguntas sencillas. Por ejemplo, si un usuario pregunta "¿Qué sucede en este video?", LongVU puede describir con precisión la escena, los personajes y sus interacciones. Ya sea para preguntas simples sobre objetos en el video o descripciones complejas de la trama, LongVU proporciona retroalimentación rápida y precisa.
Ejemplo oficial:
Indicación del usuario: Please provide a detailed description of the video.
Respuesta de LongVU: El video comienza con una escena ambientada en una ciudad futurista nocturna, donde un robot humanoide se encuentra en primer plano, de espaldas a la cámara, con edificios iluminados y un helicóptero en vuelo como fondo. El escenario se caracteriza por una mezcla de elementos modernos y cyberpunk, con letreros de neón y una calle mojada que refleja las luces de la ciudad. A medida que avanza el video, el robot permanece inmóvil, mientras el helicóptero se acerca, finalmente sobrevolando la calle, lo que indica una posible interacción o evento entre el robot y el helicóptero.
La escena luego cambia a un entorno interior, probablemente un taller o garaje, lleno de diversos equipos y maquinaria electrónica. El robot ahora está en primer plano, frente a la cámara, con una persona al fondo, lo que sugiere una progresión narrativa. El ambiente está desordenado, con una iluminación que proyecta un tono azul sobre la escena, enfatizando el tema tecnológico.
A medida que continúa el video, el ángulo de la cámara cambia para mostrar al robot desde atrás, con la persona del fondo ahora más visible, indicando movimiento. El escenario del taller permanece consistente, con el desorden y el equipo electrónico sin cambios. La iluminación y la gama de colores continúan resaltando el ambiente tecnológico.
La perspectiva luego cambia a una vista lateral del robot, revelando más de su estructura y el entorno desordenado del taller. La persona del fondo ahora está más cerca del robot, lo que sugiere interacción o movimiento hacia él. La iluminación y la gama de colores permanecen consistentes, manteniendo la atmósfera tecnológica.
Finalmente, la cámara enfoca al robot, concentrándose en la parte superior de su cuerpo y los intrincados detalles de sus componentes internos. El entorno desordenado del taller se vuelve menos visible, con la iluminación proyectando un tono azul sobre la escena, enfatizando el tema tecnológico. El primer plano de la cámara destaca el diseño del robot y la complejidad de sus mecanismos internos, lo que sugiere un enfoque narrativo en el funcionamiento interno del robot o su papel dentro del entorno tecnológico.
El rápido crecimiento del contenido de video largo requiere métodos de procesamiento más eficientes. El lanzamiento de LongVU sin duda aporta nuevas posibilidades al campo de la comprensión multimodal.
Enlace al proyecto: https://vision-cair.github.io/LongVU/
Puntos clave:
1. 📽️ LongVU es un nuevo mecanismo de compresión espacio-temporal adaptativo diseñado para mejorar la comprensión del lenguaje en videos largos.
2. 🔍 Esta tecnología utiliza características de DINOv2 para descartar fotogramas redundantes y, mediante consultas multimodales, logra la compresión selectiva de características.
3. 🚀 LongVU muestra un rendimiento excelente en diversas pruebas de referencia de comprensión de video, superando a otros métodos, especialmente en tareas de comprensión de videos largos.