Aujourd'hui, Alibaba a officiellement annoncé la publication en open source de son modèle de génération vidéo Wanxiang 2.1, disponible en deux versions : 14B et 1.3B. La version professionnelle 14B, haute performance, offre des capacités de pointe et répond aux exigences les plus élevées en matière de qualité vidéo ; tandis que la version ultrarapide 1.3B, compatible avec les cartes graphiques grand public (8,2 Go de VRAM suffisent pour générer des vidéos 480p de haute qualité), est idéale pour le développement de modèles secondaires et la recherche académique.
Selon l'annonce officielle, Wanxiang 2.1, dans cette version open source, présente des avantages significatifs dans le traitement des mouvements complexes, la reproduction des lois physiques réelles, l'amélioration de la qualité cinématographique et l'optimisation du respect des instructions, répondant ainsi aux besoins diversifiés des créateurs, des développeurs et des entreprises. Grâce à Tongyi Wanxiang, les utilisateurs peuvent facilement générer des vidéos de haute qualité, en particulier dans les domaines de la publicité et des courtes vidéos, répondant ainsi aux exigences élevées en matière de créativité.
Dans l'ensemble de tests de référence VBench, Tongyi Wanxiang a obtenu le meilleur score avec 86,22%, devançant largement d'autres modèles de génération vidéo nationaux et internationaux tels que Sora, Minimax et Luma. Ce test est basé sur les paradigmes DiT et Flow Matching à bruit linéaire, et a permis d'améliorer les capacités de génération du modèle grâce à une série d'innovations technologiques. Notamment, le module VAE causal 3D haute efficacité développé en interne permet une compression sans perte de l'espace latent vidéo de 256 fois, prenant en charge le codage et le décodage efficaces de vidéos de longueur arbitraire.
Lors de la génération de vidéos, Tongyi Wanxiang utilise un mécanisme d'attention complète basé sur la structure DiT dominante, modélisant efficacement les dépendances spatio-temporelles pour garantir la haute qualité et la cohérence des vidéos générées. La stratégie d'entraînement du modèle adopte une méthode d'entraînement progressif en 6 étapes, passant progressivement de données à basse résolution à des données à haute résolution pour garantir des performances exceptionnelles dans différentes conditions. De plus, Tongyi Wanxiang a mis en place un processus de nettoyage rigoureux des données pour garantir la haute qualité des données d'entraînement.
En termes d'optimisation de l'efficacité de l'entraînement et de l'inférence, Tongyi Wanxiang a recours à plusieurs technologies de pointe, telles que des stratégies d'entraînement distribué, l'optimisation des valeurs d'activation et la gestion de la mémoire vidéo, garantissant ainsi la stabilité de l'entraînement du modèle et l'efficacité de l'inférence. Grâce à l'intégration avec le système d'ordonnancement intelligent du cluster d'entraînement d'Alibaba Cloud, le modèle peut automatiquement détecter les pannes et redémarrer rapidement pendant l'entraînement, assurant ainsi le bon déroulement du processus d'entraînement.
Tongyi Wanxiang 2.1 est désormais disponible en open source sur GitHub et Hugging Face, prenant en charge plusieurs frameworks populaires, offrant ainsi aux développeurs et aux chercheurs une expérience utilisateur conviviale. Que ce soit pour le développement rapide de prototypes ou le déploiement de production efficace, Tongyi Wanxiang répond aux besoins des différents utilisateurs et insuffle une nouvelle dynamique au développement de la technologie de génération vidéo.
Accès à la communauté Mota : https://modelscope.cn/organization/Wan-AI
Points clés :
🌟 Tongyi Wanxiang 2.1 est open source et prend en charge les besoins diversifiés de génération vidéo.
🏆 Il a obtenu un score élevé de 86,22 % dans les tests VBench, surpassant les autres modèles.
🚀 L'entraînement progressif et plusieurs optimisations technologiques ont amélioré l'efficacité et la qualité de la génération.