Recientemente, Meta, en colaboración con la Universidad de Ciencia y Tecnología Rey Abdulaziz (KAUST) de Arabia Saudita, ha presentado una nueva serie de modelos de difusión de vídeo: MarDini. Este modelo simplifica y flexibiliza la creación de vídeos de alta calidad, permitiendo realizar diversas tareas como rellenar fotogramas perdidos en un vídeo, convertir una sola imagen en una escena dinámica, o incluso extender clips cortos añadiendo fotogramas naturales y consecutivos.

image.png

Meta ha intensificado sus esfuerzos en el campo de la generación de vídeo con IA, sobre la base del trabajo realizado el año pasado. Anteriormente, lanzó modelos de texto a vídeo y de edición como Emu Video y Emu Edit. Este año, antes del lanzamiento de MarDini, presentó Movie Gen, un editor de vídeo avanzado. Esto demuestra el compromiso de Meta con la creación de herramientas más potentes para los creadores de vídeo.

La potencia de MarDini radica en su capacidad para generar vídeo a partir de cualquier número de fotogramas enmascarados, admitiendo diversas tareas de generación, como interpolación de vídeo, conversión de imagen a vídeo y extensión de vídeo.

Resultados de imagen a vídeo

Una de las principales aplicaciones de MarDini es la generación de vídeo a partir de imágenes. Para demostrar esta función, se utiliza un fotograma de referencia colocado en la posición central como entrada condicional, generando 16 fotogramas adicionales. En el ejemplo de vídeo oficial generado, se incluyen 17 fotogramas renderizados a 8 FPS, creando un vídeo fluido de 2 segundos.

Resultados de extensión de vídeo

MarDini también puede extender vídeos existentes de cualquier duración ajustándolos. Generamos una extensión de 2 segundos a partir de un vídeo de referencia de 5 fotogramas, añadiendo 12 fotogramas nuevos a cada secuencia.

Resultados de interpolación de vídeo

MarDini realiza la interpolación de vídeo generando fotogramas intermedios utilizando el primer y el último fotograma como señales de ajuste. Cuando estos fotogramas de borde son iguales, MarDini puede crear vídeos en bucle sin interrupciones.

El funcionamiento de MarDini es muy interesante. Emplea una técnica de generación de vídeo avanzada y eficiente, compuesta principalmente por dos partes: un modelo de planificación y un modelo de generación. Primero, el modelo de planificación utiliza un método de auto-regresión enmascarada (MAR) para interpretar los fotogramas de entrada de baja resolución, generando señales de guía para los fotogramas que deben crearse. Luego, un modelo de generación ligero genera fotogramas detallados de alta resolución mediante un proceso de difusión, garantizando la fluidez y la buena calidad visual del vídeo final.

A diferencia de muchos modelos de vídeo que requieren modelos de imagen de pre-entrenamiento complejos, MarDini afirma poder entrenarse desde cero utilizando datos de vídeo sin etiquetar. Esto se debe a su estrategia de entrenamiento progresivo, que ajusta de forma flexible la forma en que se enmascaran los fotogramas durante el entrenamiento, permitiendo que el modelo se adapte mejor a diferentes configuraciones de fotogramas.

Una característica destacada de MarDini es su flexibilidad y rendimiento. Es potente y eficiente, adecuado para tareas a mayor escala. Este modelo puede manejar diversas tareas, como la interpolación de vídeo, la generación de vídeo a partir de imágenes y la extensión de vídeo, ya sea para suavizar fragmentos de vídeo existentes o para crear secuencias completas desde cero.

En cuanto al rendimiento, MarDini establece nuevos estándares, generando vídeos de alta calidad en menos pasos, lo que lo hace más ventajoso en términos de coste y tiempo que las alternativas más complejas. El artículo de investigación oficial indica que "nuestra investigación muestra que nuestra estrategia de modelado presenta un rendimiento competitivo en varias pruebas de referencia de interpolación y animación, reduciendo al mismo tiempo la demanda computacional con un tamaño de parámetros comparable."

Enlace al proyecto: https://mardini-vidgen.github.io/

Puntos clave:

✨ MarDini es un modelo de generación de vídeo de nueva generación desarrollado por Meta y KAUST, capaz de realizar fácilmente diversas tareas de creación de vídeo.

🎥 Este modelo, mediante la combinación de modelos de planificación y generación, permite una interpolación de vídeo y una generación de vídeo a partir de imágenes eficientes.

💡 MarDini genera vídeos de alta calidad en menos pasos, mejorando significativamente la flexibilidad y la eficiencia de la creación.