Récemment, Alibaba a lancé en pleine nuit son tout nouveau modèle de génération de vidéo open source, Wan2.1. Avec ses 14 milliards de paramètres, ce modèle a rapidement conquis la première place du classement VBench, devenant ainsi un leader dans le domaine de la génération vidéo. Contrairement à QwQ-Max, lancé précédemment, Wan2.1 excelle dans le traitement des détails des mouvements complexes, capable de générer des danses synchronisées de plusieurs personnages avec une fluidité impressionnante.

Dans les démonstrations officielles, Wan2.1 a non seulement surmonté les difficultés liées à la génération d'images statiques, mais a également atteint de nouveaux sommets dans le traitement du texte. Bien que le déploiement de ses 14 milliards de paramètres soit difficile sur les cartes graphiques grand public, Alibaba a également lancé une version allégée de 1,3 milliard de paramètres, supportant une résolution 480P et fonctionnant fluidement sur une carte graphique 4070 avec 12 Go de VRAM.

Cerveau, grand modèle

Source : Image générée par IA, fournie par Midjourney

En plus des versions 14 milliards et 1,3 milliard de paramètres, Alibaba a publié deux autres modèles de génération vidéo, tous deux sous licence Apache2.0, ce qui signifie qu'ils peuvent être utilisés gratuitement à des fins commerciales. En pratique, les utilisateurs peuvent accéder à ce modèle via la plateforme d'Alibaba pour générer rapidement des vidéos, bien que le volume important d'utilisateurs puisse entraîner des temps d'attente prolongés. Les utilisateurs ayant des compétences techniques peuvent également installer et configurer le modèle eux-mêmes via Hugging Face, la communauté Modélisation et d'autres plateformes.

Le point fort de Wan2.1 réside dans son innovation technologique. Ce modèle utilise une architecture Diffusion Transformer et un encodeur automatique variationnel 3D, spécialement conçus pour la génération vidéo. Grâce à l'intégration de plusieurs stratégies de compression et de parallélisation, le modèle améliore considérablement l'efficacité de la génération tout en garantissant la qualité. Des études montrent que la vitesse de reconstruction de Wan est 2,5 fois supérieure à celle des technologies concurrentes, ce qui permet de réduire considérablement les ressources de calcul.

En termes d'expérience utilisateur, Wan2.1 a reçu de nombreux éloges. Que ce soit pour la génération de détails dans des scènes dynamiques ou pour les effets physiques naturels, les performances du modèle sont impressionnantes. Les utilisateurs peuvent non seulement créer des vidéos de haute qualité, mais aussi facilement réaliser des présentations textuelles dynamiques, ouvrant ainsi de nouvelles possibilités créatives.

Le modèle Wan2.1 d'Alibaba est non seulement technologiquement avancé, mais offre également aux créateurs une plus grande liberté de création, marquant une nouvelle avancée dans la technologie de génération vidéo.