En la era de los medios digitales, el vídeo se ha convertido en la principal forma de expresión y de compartir historias. Sin embargo, la creación de vídeos de alta calidad suele requerir habilidades profesionales y equipos costosos. Ahora, con Snap Video, solo necesitas describir con texto la escena que deseas, y el vídeo se generará automáticamente.
Los modelos actuales de generación de imágenes han demostrado una calidad y diversidad excepcionales. Inspirados en esto, los investigadores comenzaron a aplicar estos modelos a la generación de vídeo. Sin embargo, la alta redundancia del contenido de vídeo hace que la aplicación directa de los modelos de imagen al ámbito de la generación de vídeo reduzca la autenticidad del movimiento, la calidad visual y la escalabilidad.
Snap Video es un modelo centrado en vídeo que aborda sistemáticamente estos desafíos. En primer lugar, amplía el marco EDM considerando los píxeles redundantes en el espacio y el tiempo, lo que permite la generación de vídeo de forma natural. En segundo lugar, propone una nueva arquitectura basada en transformadores, que es 3,31 veces más rápida en el entrenamiento y 4,5 veces más rápida en la inferencia que U-Net. Esto permite a Snap Video entrenar de forma eficiente modelos de texto a vídeo con miles de millones de parámetros, alcanzando por primera vez resultados de vanguardia y generando vídeos de mayor calidad, con una consistencia temporal y una complejidad de movimiento significativamente mejoradas.
Aspectos destacados de la tecnología:
Modelado conjunto espacio-temporal: Snap Video puede sintetizar vídeos coherentes con movimientos de gran amplitud, al tiempo que conserva la capacidad de control semántico de los generadores de texto a vídeo a gran escala.
Generación de vídeo de alta resolución: Se utiliza un modelo en cascada de dos etapas: primero se genera un vídeo de baja resolución y luego se realiza un sobremuestreo de alta resolución, evitando posibles problemas de inconsistencia temporal.
Arquitectura basada en FIT: Snap Video utiliza la arquitectura FIT (Far-reaching Interleaved Transformers), que permite un modelado conjunto espacio-temporal eficiente mediante el aprendizaje de representaciones de vídeo comprimidas.
Snap Video se ha evaluado en conjuntos de datos ampliamente utilizados como UCF101 y MSR-VTT, mostrando una ventaja particular en la generación de la calidad del movimiento. Los estudios de usuarios también muestran que Snap Video supera a los métodos más recientes en cuanto a alineación de texto y vídeo, cantidad y calidad del movimiento.
El artículo también analiza otros trabajos de investigación en el campo de la generación de vídeo, incluyendo métodos basados en entrenamiento adversarial o técnicas de generación autorregresiva, así como los recientes avances en el uso de modelos de difusión en tareas de generación de texto a vídeo.
Snap Video aborda sistemáticamente los problemas comunes en la generación de texto a vídeo relacionados con el proceso de difusión y la arquitectura, tratando el vídeo como un elemento de primera clase. Las modificaciones propuestas al marco de difusión EDM y la arquitectura basada en FIT mejoran significativamente la calidad y la escalabilidad de la generación de vídeo.
Enlace al artículo: https://arxiv.org/pdf/2402.14797