Los modelos tradicionales de comprensión de video enfrentan muchos desafíos al procesar videos largos, incluida la comprensión del complejo contexto que estos implican. Aunque se han realizado numerosas investigaciones para mejorar la capacidad de comprensión de video, sigue siendo difícil superar eficazmente la baja eficiencia de entrenamiento e inferencia. Para abordar estos problemas, el equipo de investigación utilizó la tecnología HiCo para comprimir las partes redundantes de la información del video, reduciendo así significativamente la demanda computacional mientras se conserva la información clave.

image.png

Específicamente, HiCo comprime el video jerárquicamente, dividiendo videos largos en segmentos cortos para reducir el número de tokens a procesar. Este método no solo reduce los requisitos de recursos computacionales del modelo, sino que también aumenta el ancho de la ventana de contexto, mejorando la capacidad de procesamiento del modelo. Además, el equipo de investigación utilizó la asociación semántica con la consulta del usuario para reducir aún más el número de tokens de video.

En la implementación específica del procesamiento de videos largos, "VideoChat-Flash" adopta un esquema de aprendizaje de video corto a video largo en múltiples etapas. Los investigadores primero utilizan videos cortos y sus anotaciones correspondientes para el ajuste fino supervisado, y luego introducen gradualmente videos largos para el entrenamiento, logrando finalmente una comprensión completa de los datos de longitud mixta. Esta forma no solo mejora la capacidad de percepción visual del modelo, sino que también proporciona un rico soporte de datos para el procesamiento de videos largos. El equipo de investigación construyó un vasto conjunto de datos que contiene 300,000 horas de video y 200 millones de palabras de anotaciones.

Además, el estudio propone una tarea mejorada de "aguja en un pajar" para la configuración de video de múltiples saltos. A través de un nuevo benchmark, el modelo no solo necesita encontrar una sola imagen objetivo en el video, sino que también debe comprender múltiples secuencias de imágenes interrelacionadas, mejorando así la capacidad del modelo para comprender el contexto.

Los resultados experimentales muestran que el método propuesto reduce los cálculos en dos órdenes de magnitud, mostrando un rendimiento excepcional en las pruebas de referencia de videos cortos y largos, convirtiéndose en el líder en el nuevo campo de la comprensión de videos cortos. Simultáneamente, este modelo también supera a los modelos de código abierto existentes en la comprensión de videos largos, mostrando una poderosa capacidad de localización temporal.

Artículo:https://arxiv.org/abs/2501.00574

Puntos clave:

🌟 Los investigadores propusieron la tecnología de compresión jerárquica de etiquetas de video HiCo, reduciendo significativamente la demanda computacional del procesamiento de videos largos.

📹 El sistema "VideoChat-Flash" utiliza un método de aprendizaje de múltiples etapas, combinando videos cortos y largos para el entrenamiento, mejorando la capacidad de comprensión del modelo.

🔍 Los resultados experimentales muestran que este método alcanza nuevos estándares de rendimiento en múltiples pruebas de referencia, convirtiéndose en un modelo avanzado en el campo del procesamiento de videos largos.