Actualmente, los grandes modelos de lenguaje multimodal (MLLM) han logrado avances significativos en la comprensión de video, pero el procesamiento de videos extremadamente largos sigue siendo un desafío. Esto se debe a que los MLLM suelen tener dificultades para manejar miles de tokens visuales que superan la longitud máxima del contexto, y se ven afectados por la atenuación de la información causada por la agregación de tokens. Al mismo tiempo, una gran cantidad de tokens de video también genera un alto costo computacional.
Para abordar estos problemas, el Instituto de Inteligencia Artificial de Beijing (BAAI), en colaboración con varias universidades como la Universidad Jiao Tong de Shanghai, la Universidad del Pueblo Chino, la Universidad de Pekín y la Universidad de Tecnología Postal de Beijing, ha presentado Video-XL, un modelo de lenguaje visual extremadamente largo diseñado para la comprensión eficiente de videos de duración horaria. El núcleo de Video-XL radica en la técnica de "resumen latente del contexto visual", que utiliza la capacidad inherente de modelado contextual de los LLM para comprimir eficazmente las representaciones visuales largas en una forma más compacta.
En pocas palabras, se trata de comprimir el contenido del video en una forma más concisa, como concentrar una res entera en un tazón de caldo de res, facilitando su digestión y asimilación por parte del modelo.
Esta técnica de compresión no solo aumenta la eficiencia, sino que también conserva eficazmente la información clave del video. Hay que tener en cuenta que los videos largos a menudo están llenos de información redundante, como una sábana demasiado larga y tediosa. Video-XL puede eliminar con precisión esta información inútil, conservando solo lo esencial, lo que garantiza que el modelo no se pierda al comprender el contenido de videos largos.
Video-XL no solo es teóricamente excelente, sino que también tiene una capacidad práctica excepcional. En varias pruebas de referencia de comprensión de videos largos, Video-XL ha logrado resultados líderes, especialmente en la prueba VNBench, donde su precisión supera en casi un 10% a los métodos existentes.
Más impresionante aún es el sorprendente equilibrio entre eficiencia y eficacia de Video-XL, capaz de procesar videos de 2048 fotogramas en una sola GPU de 80 GB, manteniendo una precisión cercana al 95% en la evaluación de "búsqueda en un pajar".
Las perspectivas de aplicación de Video-XL son también muy amplias. Además de comprender videos largos generales, también puede realizar tareas específicas como resúmenes de películas, detección de anomalías en la vigilancia y reconocimiento de inserciones publicitarias.
Esto significa que en el futuro, ver películas ya no requerirá soportar tramas largas, pudiendo usar Video-XL para generar un resumen conciso, ahorrando tiempo y esfuerzo; o utilizarlo para monitorear imágenes de vigilancia, identificando automáticamente eventos anormales, con una eficiencia mucho mayor que la supervisión humana.
Dirección del proyecto: https://github.com/VectorSpaceLab/Video-XL
Artículo: https://arxiv.org/pdf/2409.14485