Wan2.1-T2V-14B est un modèle de pointe de génération de vidéo à partir de texte, basé sur une architecture de transformateur de diffusion, combinant un auto-encodeur variationnel spatio-temporel (VAE) innovant et un entraînement sur des données à grande échelle. Il est capable de générer du contenu vidéo de haute qualité à différentes résolutions, prend en charge les entrées de texte en chinois et en anglais, et surpasse les modèles open source et commerciaux existants en termes de performances et d'efficacité. Ce modèle est adapté aux scénarios nécessitant une génération vidéo efficace, tels que la création de contenu, la production publicitaire et le montage vidéo. Actuellement, ce modèle est disponible gratuitement sur la plateforme Hugging Face, dans le but de promouvoir le développement et l'application de la technologie de génération vidéo.