En el mundo de la IA, hacer que las máquinas comprendan videos es mucho más difícil que comprender imágenes. Los videos son dinámicos, tienen sonido, movimiento y una gran cantidad de escenas complejas. Antes, la IA veía los videos como si fueran un libro en un idioma desconocido, a menudo sin comprender nada.
Pero la aparición de VideoPrism podría cambiar todo esto. Se trata de un codificador de video desarrollado por el equipo de investigación de Google que puede alcanzar el nivel de tecnología más avanzada en múltiples tareas de comprensión de video con un solo modelo. Ya sea para clasificar, localizar o generar subtítulos de videos, o incluso para responder preguntas sobre ellos, VideoPrism puede manejarlo con facilidad.
¿Cómo se entrena VideoPrism?
Entrenar VideoPrism es como enseñarle a un niño pequeño a observar el mundo. Primero, hay que mostrarle una gran variedad de videos, desde la vida cotidiana hasta observaciones científicas, de todo tipo. Luego, también hay que utilizar pares de video-subtítulos de "alta calidad", así como textos paralelos con ruido (como los textos de reconocimiento automático de voz) para entrenarlo.
Método de preentrenamiento
Datos: VideoPrism utilizó 36 millones de pares de video-subtítulos de alta calidad y 5820 millones de fragmentos de video con textos paralelos ruidosos.
Arquitectura del modelo: Basada en el transformador visual estándar (ViT), con un diseño factorizado en el espacio y el tiempo.
Algoritmo de entrenamiento: Incluye dos etapas: entrenamiento contrastivo video-texto y modelado de video enmascarado.
Durante el entrenamiento, VideoPrism pasa por dos etapas. En la primera etapa, aprende la relación entre el video y el texto mediante el aprendizaje contrastivo y la destilación global-local. En la segunda etapa, mejora aún más la comprensión del contenido del video mediante el modelado de video enmascarado.
Los investigadores probaron VideoPrism en múltiples tareas de comprensión de video, y los resultados fueron sorprendentes. En 33 pruebas de referencia, VideoPrism alcanzó el nivel más avanzado en 30 de ellas. Tanto en la respuesta a preguntas sobre videos en línea como en las tareas de visión artificial en el ámbito científico, VideoPrism demostró una gran capacidad.
El nacimiento de VideoPrism ha abierto nuevas posibilidades en el campo de la comprensión de video por IA. No solo puede ayudar a la IA a comprender mejor el contenido de los videos, sino que también puede desempeñar un papel importante en la educación, el entretenimiento, la seguridad y muchos otros campos.
Sin embargo, VideoPrism también se enfrenta a algunos desafíos, como cómo manejar videos largos y cómo evitar introducir sesgos durante el entrenamiento. Estos son problemas que la investigación futura deberá abordar.
Dirección del artículo:https://arxiv.org/pdf/2402.13217