智谱AI anuncia la actualización y lanzamiento de código abierto del modelo CogVLM2-Video, un modelo que representa un avance significativo en el campo de la comprensión de video. CogVLM2-Video aborda las limitaciones de los modelos existentes de comprensión de video en el manejo de la información temporal al incorporar imágenes de múltiples fotogramas de video y marcas de tiempo como entrada del codificador. El modelo utiliza un método automatizado para construir datos de localización temporal, generando 30,000 pares de preguntas y respuestas de video relacionados con el tiempo, lo que permite entrenar un modelo que alcanza el rendimiento más avanzado en los benchmarks públicos de comprensión de video. CogVLM2-Video destaca en la generación de subtítulos de video y la localización temporal, proporcionando una herramienta poderosa para tareas como la generación y el resumen de videos.

CogVLM2-Video permite al modelo de lenguaje saber con precisión el tiempo correspondiente a cada fotograma extrayendo fotogramas del video de entrada y anotando la información de la marca de tiempo, lo que permite la localización temporal y las preguntas y respuestas relacionadas.

微信截图_20240712135239.png

Para el entrenamiento a gran escala, se desarrolló un flujo de trabajo automatizado para generar datos de preguntas y respuestas de video. La combinación de modelos de comprensión de imágenes y modelos de lenguaje grandes redujo los costos de anotación y mejoró la calidad de los datos. El conjunto de datos Temporal Grounding Question and Answer (TQA) resultante contiene 30,000 registros, proporcionando datos de localización temporal ricos para el entrenamiento del modelo.

CogVLM2-Video ha demostrado un rendimiento excepcional en varios conjuntos de evaluación públicos, incluyendo un excelente desempeño en métricas de evaluación cuantitativas como VideoChatGPT-Bench y Zero-shot QA, así como MVBench.

Código:https://github.com/THUDM/CogVLM2

Sitio web del proyecto:https://cogvlm2-video.github.io

Prueba en línea:http://36.103.203.44:7868/