Récemment, Meta, en collaboration avec l'Université des sciences et technologies du roi Abdallah (KAUST) en Arabie Saoudite, a lancé une toute nouvelle série de modèles de diffusion vidéo : MarDini. Ce modèle simplifie et rend plus flexible la création de vidéos de haute qualité, permettant d'effectuer diverses tâches, telles que le remplissage des images manquantes dans une vidéo, la transformation d'une seule image en une scène dynamique, et même l'extension de courts clips en ajoutant des images intermédiaires naturelles et fluides.
Meta a renforcé ses efforts dans le domaine de la génération de vidéos IA par rapport à l'année dernière. Auparavant, elle avait lancé des modèles de texte à vidéo et d'édition, tels qu'Emu Video et Emu Edit. Cette année, avant la sortie de MarDini, elle a également lancé Movie Gen, un éditeur vidéo avancé. Cela montre clairement l'engagement de Meta à fournir des outils plus puissants aux créateurs de vidéos.
La puissance de MarDini réside dans sa capacité à générer des vidéos à partir d'un nombre quelconque d'images masquées, prenant en charge plusieurs tâches de génération, telles que l'interpolation vidéo, la conversion image-vidéo et l'extension vidéo.
Résultat image vers vidéo
L'une des principales applications de MarDini est la génération de vidéos à partir d'images. Cette fonctionnalité est démontrée en utilisant une image de référence placée au milieu comme entrée conditionnelle et en générant 16 images supplémentaires. Dans l'exemple vidéo officiel, 17 images rendues à 8 FPS permettent de créer une vidéo fluide de 2 secondes.
Résultat d'extension vidéo
MarDini peut également étendre des vidéos existantes de n'importe quelle durée. Nous démontrons cela en générant une extension de 2 secondes à partir d'une vidéo de référence de 5 images, en ajoutant 12 nouvelles images à chaque séquence.
Résultat d'interpolation vidéo
MarDini réalise l'interpolation vidéo en générant des images intermédiaires en utilisant la première et la dernière image comme signaux de conditionnement. Lorsque ces images limites sont identiques, MarDini peut créer des vidéos en boucle sans interruption.
Le fonctionnement de MarDini est assez intéressant. Il utilise une technique de génération vidéo avancée et efficace, principalement composée de deux parties : un modèle de planification et un modèle de génération. Tout d'abord, le modèle de planification utilise une méthode d'auto-régression masquée (MAR) pour interpréter les images d'entrée basse résolution et générer un signal directeur pour les images à créer. Ensuite, un modèle de génération léger génère des images détaillées en haute résolution via un processus de diffusion, garantissant ainsi la fluidité et la qualité visuelle de la vidéo finale.
Contrairement à de nombreux modèles vidéo nécessitant des modèles d'images pré-entraînés complexes, MarDini affirme pouvoir être entraîné à partir de zéro en utilisant des données vidéo non étiquetées. Ceci est dû à sa stratégie d'entraînement progressive, qui ajuste de manière flexible la façon dont les images sont masquées pendant l'entraînement, permettant au modèle de mieux gérer différentes configurations d'images.
L'une des caractéristiques remarquables de MarDini est sa flexibilité et ses performances. Il est non seulement puissant mais aussi efficace, adapté aux tâches à plus grande échelle. Ce modèle est capable de gérer plusieurs tâches, telles que l'interpolation vidéo, la génération de vidéos à partir d'images et l'extension vidéo, qu'il s'agisse de lisser des segments vidéo existants ou de créer des séquences complètes à partir de zéro.
En termes de performances, MarDini établit de nouvelles références en générant des vidéos de haute qualité en moins d'étapes, ce qui le rend plus avantageux en termes de coût et de temps que les solutions de remplacement plus complexes. L'article de recherche officiel indique : « Nos recherches montrent que notre stratégie de modélisation présente des performances compétitives dans plusieurs tests de référence d'interpolation et d'animation, tout en réduisant les besoins de calcul pour une échelle de paramètres comparable. »
Accès au projet : https://mardini-vidgen.github.io/
Points clés :
✨ MarDini est un modèle de génération vidéo de nouvelle génération développé par Meta et KAUST, capable d'effectuer facilement plusieurs tâches de création vidéo.
🎥 Ce modèle, grâce à la combinaison d'un modèle de planification et d'un modèle de génération, permet une interpolation vidéo et une génération de vidéos à partir d'images efficaces.
💡 MarDini génère des vidéos de haute qualité en moins d'étapes, améliorant considérablement la flexibilité et l'efficacité de la création.