Recientemente, los investigadores presentaron la serie ShareGPT4Video, cuyo objetivo es facilitar la comprensión de videos por parte de los modelos de lenguaje de video a gran escala (LVLMs) y la generación de videos por parte de los modelos de texto a video (T2VMs) mediante subtítulos detallados y precisos.
ShareGPT4Video incluye:
1) ShareGPT4Video: subtítulos densos de 40.000 videos de diferentes longitudes y orígenes anotados por GPT4V, desarrollados mediante estrategias de filtrado y anotación de datos cuidadosamente diseñadas.
2) ShareCaptioner-Video: un modelo de generación de subtítulos de video eficiente y potente para cualquier video, que ha anotado 4.800.000 videos estéticos de alta calidad.
3) ShareGPT4Video-8B: un LVLM simple pero excelente que ha logrado un rendimiento SOTA en tres pruebas de referencia de video avanzadas.
Además de los anotadores humanos, que no son escalables y son costosos, la investigación descubrió que el uso de GPT4V con estrategias simples de entrada multi-frame o concatenación de frames para generar subtítulos de video conduce a resultados que carecen de detalle y, a veces, presentan confusión temporal. El equipo de investigación considera que los desafíos para diseñar estrategias de subtitulado de video de alta calidad se centran en tres aspectos:
1) Comprender los cambios temporales precisos entre frames.
2) Describir el contenido detallado dentro de cada frame.
3) Escalabilidad del número de frames para videos de longitud arbitraria.
Para ello, los investigadores diseñaron cuidadosamente una estrategia de subtitulado de video diferencial, estable, escalable y eficiente para generar subtítulos de video con cualquier resolución, relación de aspecto y longitud. Sobre esta base, se construyó ShareGPT4Video, que incluye 40.000 videos de alta calidad que abarcan una amplia gama de categorías, y cuyos subtítulos contienen un rico conocimiento del mundo, atributos de objetos, movimiento de la cámara y descripciones detalladas y precisas de eventos clave en el tiempo.
Basándose en ShareGPT4Video, se desarrolló ShareCaptioner-Video, un excelente modelo de generación de subtítulos capaz de generar subtítulos de alta calidad para cualquier video de forma eficiente. Se utilizaron para anotar 4.800.000 videos estéticamente atractivos y se verificó su eficacia en una tarea de generación de video a partir de texto de 10 segundos. ShareCaptioner-Video es un excelente modelo de subtitulado de video cuatro en uno con las siguientes funciones: subtitulado rápido, subtitulado deslizante, resumen de clips y resubtitulado rápido.
En cuanto a la comprensión de video, el equipo de investigación también verificó la eficacia de ShareGPT4Video para varias arquitecturas LVLMs actuales y presentó un nuevo LVLM excelente, ShareGPT4Video-8B.
Acceso al producto: https://top.aibase.com/tool/sharegpt4video