Alibaba a récemment annoncé la publication en open source de son dernier modèle de génération de vidéos à partir d'images clés, Wan2.1-FLF2V-14B, capable de générer des vidéos HD 720p de 5 secondes. Ce modèle, qui suscite un vif intérêt grâce à sa technique innovante de contrôle des images clés de début et de fin, ouvre de nouvelles perspectives dans le domaine de la génération de vidéos par IA. Selon AIbase, ce modèle est disponible depuis février 2025 sur GitHub et Hugging Face, et est accessible gratuitement aux développeurs, chercheurs et entreprises du monde entier. Ceci marque une nouvelle étape importante dans la construction de l'écosystème IA open source d'Alibaba.

image.png

Fonctionnalité principale : Génération de vidéos fluides et HD à partir d'images clés de début et de fin

Wan2.1-FLF2V-14B utilise les images clés de début et de fin comme conditions de contrôle. Il suffit de fournir deux images, et le modèle génère automatiquement une vidéo de 5 secondes en résolution 720p. AIbase a observé que les vidéos générées présentent une excellente fluidité du mouvement et une transition impeccable entre les images clés de début et de fin. Les détails sont fidèlement reproduits par rapport aux images de référence, et la cohérence globale du contenu est nettement améliorée. Comparé aux modèles de génération de vidéos traditionnels, ce modèle, grâce à un contrôle précis des conditions, résout les problèmes de tremblements d'images et de dérive de contenu fréquents lors de la génération de longues séquences vidéo, offrant ainsi une solution efficace pour la création de vidéos de haute qualité.

Points forts techniques : Fusion de CLIP et de DiT pour une meilleure stabilité de génération

Selon l'analyse d'AIbase, Wan2.1-FLF2V-14B utilise une technique avancée de contrôle conditionnel des images clés de début et de fin, reposant sur les innovations suivantes :

Extraction des caractéristiques sémantiques CLIP : Le modèle CLIP extrait les informations sémantiques des images clés de début et de fin pour garantir que le contenu visuel de la vidéo générée corresponde étroitement aux images d'entrée.

Mécanisme d'attention croisée : Les caractéristiques des images clés de début et de fin sont injectées dans le processus de génération du transformateur de diffusion (DiT) pour améliorer la stabilité de l'image et la cohérence de la séquence temporelle.

Entraînement basé sur les données : Le modèle a été entraîné sur un vaste ensemble de données comprenant 150 millions de vidéos et 1 milliard d'images, ce qui lui permet de générer un contenu dynamique respectant les lois physiques réelles.

La combinaison de ces techniques permet à Wan2.1-FLF2V-14B d'obtenir d'excellents résultats lors de la génération de scènes de mouvement complexes, et il est particulièrement adapté aux applications créatives nécessitant des transitions de haute fidélité.

Applications étendues : Amélioration de la création de contenu et de la recherche

La publication en open source de Wan2.1-FLF2V-14B offre de vastes perspectives d'application dans divers domaines. AIbase a identifié les principaux scénarios d'utilisation :

Cinéma et publicité : Génération rapide de vidéos de transition de haute qualité, réduisant ainsi les coûts de post-production.

Développement de jeux : Génération d'animations de transition dynamiques pour les scènes de jeu, améliorant ainsi l'efficacité du développement.

Éducation et recherche : Permet aux chercheurs d'explorer les techniques de génération de vidéos et de développer de nouvelles applications d'IA.

Création personnalisée : Les utilisateurs peuvent générer facilement des courtes vidéos personnalisées pour enrichir le contenu des médias sociaux.

Il est important de noter que le modèle prend en charge la génération à partir de descriptions textuelles en chinois, et ses performances sont encore meilleures pour les scénarios chinois, démontrant ainsi sa capacité d'adaptation à des environnements multilingues.

Facilité d'utilisation : Compatible avec le matériel grand public

Wan2.1-FLF2V-14B présente une grande compatibilité matérielle. AIbase a constaté que, malgré sa taille importante de 1,4 milliard de paramètres, le modèle, grâce à des optimisations, peut fonctionner sur des GPU grand public tels que le RTX 4090, avec une consommation de mémoire vive minimale de 8,19 Go. La génération d'une vidéo de 5 secondes en 480p ne prend que 4 minutes environ, et le temps de génération des vidéos 720p reste raisonnable. De plus, le modèle fournit un guide de déploiement détaillé. Les utilisateurs peuvent lancer rapidement le modèle à l'aide de la commande suivante :

python

python generate.py --task flf2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "Une transition douce d'une plage ensoleillée à une nuit étoilée"

La communauté open source fournit également une interface utilisateur web basée sur Gradio, simplifiant encore l'utilisation pour les utilisateurs non techniques.

Réactions de la communauté et perspectives d'avenir

Depuis sa publication, Wan2.1-FLF2V-14B a suscité un vif intérêt au sein de la communauté open source. Les développeurs apprécient sa qualité de génération, sa compatibilité matérielle et sa stratégie open source. AIbase a constaté que la communauté a commencé à développer le modèle, explorant des fonctionnalités d'édition vidéo plus complexes, telles que la génération de sous-titres dynamiques et le doublage multilingue. À l'avenir, Alibaba prévoit d'optimiser davantage le modèle pour prendre en charge des résolutions plus élevées (telles que 8K) et des vidéos de plus longue durée, et d'étendre ses applications à des domaines tels que la conversion vidéo-audio (V2A).

Adresse du projet : https://github.com/Wan-Video/Wan2.1