Avec le développement rapide de l'intelligence artificielle, la génération de vidéos à partir d'images (I2V) est devenue un sujet de recherche majeur. Récemment, une équipe de chercheurs dirigée par Xiaoyu Shi et Zhaoyang Huang a présenté un nouveau framework appelé Motion-I2V. Ce framework, grâce à une modélisation explicite du mouvement, permet une génération d'images à vidéos plus cohérente et contrôlable. Cette avancée technologique améliore non seulement la qualité et la cohérence de la génération vidéo, mais offre également aux utilisateurs une expérience de contrôle sans précédent.
Dans le domaine de la génération de vidéos à partir d'images, le maintien de la cohérence et du contrôle de la vidéo générée a toujours été un défi technique. Les méthodes I2V traditionnelles apprennent directement la correspondance complexe entre l'image et la vidéo, tandis que le framework Motion-I2V innove en décomposant ce processus en deux étapes, en introduisant une modélisation explicite du mouvement dans les deux étapes.
Dans la première étape, Motion-I2V propose un prédicteur de champ de mouvement basé sur la diffusion, qui se concentre sur la dérivation des trajectoires des pixels de l'image de référence. L'élément clé de cette étape est la prédiction du champ de mouvement entre l'image de référence et toutes les images futures à l'aide de l'image de référence et d'une invite textuelle. La deuxième étape est responsable de la propagation du contenu de l'image de référence aux images synthétisées. En introduisant une nouvelle couche temporelle améliorée par le mouvement, l'attention temporelle 1D est renforcée, élargissant le champ de réception temporel et réduisant la complexité de l'apprentissage direct de modèles spatio-temporels complexes.
En comparaison avec les méthodes existantes, Motion-I2V présente des avantages significatifs. Que ce soit pour des scènes comme « un char roulant rapidement », « une BMW bleue roulant rapidement », « trois glaçons clairs » ou « une limace qui rampe », Motion-I2V génère des vidéos plus cohérentes, même avec des mouvements et des changements de perspective importants, tout en maintenant une sortie de haute qualité.
De plus, Motion-I2V permet aux utilisateurs de contrôler précisément les trajectoires et les zones de mouvement grâce à des annotations de trajectoires et de zones clairsemées, offrant ainsi plus de contrôle que les instructions textuelles seules. Cela améliore non seulement l'expérience utilisateur, mais ouvre également des possibilités de personnalisation et de personnalisation de la génération vidéo.
Il est à noter que la deuxième étape de Motion-I2V prend naturellement en charge la conversion zéro-shot vidéo-à-vidéo, ce qui signifie qu'il est possible de réaliser des conversions de vidéos de styles ou de contenus différents sans échantillons d'entraînement.
Le lancement du framework Motion-I2V marque une nouvelle étape dans la génération de vidéos à partir d'images. Il a non seulement considérablement amélioré la qualité et la cohérence, mais a également démontré un énorme potentiel en termes de contrôle utilisateur et de personnalisation. Avec la maturation et l'amélioration continue de la technologie, nous avons toutes les raisons de croire que Motion-I2V jouera un rôle important dans la production cinématographique, la réalité virtuelle, le développement de jeux et bien d'autres domaines, offrant aux utilisateurs des expériences visuelles plus riches et plus vivantes.
Adresse du document : https://xiaoyushi97.github.io/Motion-I2V/
Adresse github : https://github.com/G-U-N/Motion-I2V