Récemment, Tongyi a annoncé l'open source de son dernier grand modèle Wan2.1. Wan2.1 est un modèle d'IA spécialisé dans la génération de vidéos de haute qualité. Grâce à ses performances exceptionnelles dans le traitement de mouvements complexes, la reproduction de lois physiques réalistes, l'amélioration de la qualité cinématographique et l'optimisation de la conformité aux instructions, il est devenu l'outil de prédilection des créateurs, développeurs et entreprises pour adopter l'ère de l'IA.
Dans le jeu de données d'évaluation de référence Vbench, Tongyi Wanxiang Wan2.1 a atteint la première place avec un score total de 86,22 %, surpassant largement d'autres modèles de génération de vidéos renommés, nationaux et internationaux, tels que Sora, Minimax, Luma, Gen3 et Pika. Cette réussite est due à une série d'innovations technologiques basées sur les paradigmes DiT et Flow Matching à trajectoire de bruit linéaire, qui ont permis des progrès significatifs dans les capacités de génération. Parmi celles-ci, le module VAE causal 3D efficace développé en interne a permis une compression de l'espace latent vidéo sans perte de 256 fois, et grâce à un mécanisme de cache de fonctionnalités, il prend en charge le codage et le décodage efficaces de vidéos de longueur arbitraire, tout en réduisant de 29 % l'occupation de la mémoire lors de l'inférence. De plus, le modèle est 2,5 fois plus rapide que les méthodes les plus avancées pour la reconstruction vidéo sur un seul GPU A800, démontrant un avantage de performance significatif.
L'architecture Diffusion Transformer vidéo de Wan2.1 utilise un mécanisme d'attention complète pour modéliser efficacement les dépendances spatio-temporelles à long terme, générant des vidéos de haute qualité et cohérentes spatio-temporellement. Sa stratégie d'entraînement utilise une méthode d'entraînement en six étapes, passant progressivement de la pré-formation sur des données d'images basse résolution à la formation sur des données vidéo haute résolution, et en effectuant un réglage fin avec des données annotées de haute qualité, garantissant ainsi d'excellentes performances du modèle à différentes résolutions et dans des scénarios complexes. En ce qui concerne le traitement des données, Wan2.1 a mis au point un processus de nettoyage des données en quatre étapes, axé sur les dimensions de base, la qualité visuelle et la qualité du mouvement, afin de sélectionner des données de haute qualité et diversifiées à partir d'un ensemble de données initial bruité, favorisant ainsi un entraînement efficace.
En ce qui concerne l'optimisation de l'efficacité de l'entraînement et de l'inférence du modèle, Wan2.1 a adopté plusieurs stratégies. Pendant la phase d'entraînement, des stratégies de distribution différentes sont utilisées pour les modules de codage texte, vidéo et DiT, et un basculement efficace entre les stratégies évite les redondances de calcul. Pour l'optimisation de la mémoire vive, une stratégie d'optimisation de la mémoire vive hiérarchique est utilisée, combinée au mécanisme de gestion de la mémoire vive de PyTorch pour résoudre le problème de la fragmentation de la mémoire vive. Pendant la phase d'inférence, une combinaison des méthodes FSDP et 2D CP est utilisée pour accélérer la distribution multi-cartes, et la quantification améliore encore les performances.
Actuellement, Tongyi Wanxiang Wan2.1 est open source sur des plateformes telles que GitHub, Hugging Face et la communauté Modu, et prend en charge plusieurs frameworks courants. Les développeurs et les chercheurs peuvent l'expérimenter rapidement via Gradio, ou utiliser l'accélération d'inférence parallèle xDiT pour améliorer l'efficacité. Parallèlement, le modèle est en cours d'intégration accélérée dans Diffusers et ComfyUI afin de simplifier le processus d'inférence et de déploiement en un clic, de réduire les obstacles au développement et d'offrir aux utilisateurs un choix flexible, qu'il s'agisse d'un développement rapide de prototypes ou d'un déploiement de production efficace.
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
Expérience en ligne:https://tongyi.aliyun.com/wanxiang