Recientemente, Tongyi anunció la publicación de código abierto de su último modelo de lenguaje grande Wanxiang Wan2.1. Wan2.1 es un modelo de IA centrado en la generación de videos de alta calidad. Gracias a su excelente rendimiento en el manejo de movimientos complejos, la reproducción de leyes físicas reales, la mejora de la calidad cinematográfica y la optimización del seguimiento de instrucciones, se ha convertido en la herramienta preferida para creadores, desarrolladores y empresas que abrazan la era de la IA.
En el conjunto de evaluación autorizado Vbench, Tongyi Wanxiang Wan2.1 alcanzó el primer lugar con una puntuación total del 86.22%, superando significativamente a otros modelos de generación de video conocidos a nivel nacional e internacional, como Sora, Minimax, Luma, Gen3 y Pika. Este logro se debe a que Wan2.1 se basa en los paradigmas principales de DiT y Flow Matching de trayectoria de ruido lineal, logrando un progreso significativo en la capacidad de generación a través de una serie de innovaciones tecnológicas. Entre ellas, el módulo VAE causal 3D de alta eficiencia de desarrollo propio logró una compresión de espacio latente de video sin pérdidas de 256 veces, y a través del mecanismo de caché de características admite la codificación y decodificación eficientes de videos de longitud arbitraria, al tiempo que reduce el 29% del consumo de memoria de inferencia. Además, en un entorno de una sola GPU A800, la velocidad de reconstrucción de video es 2,5 veces más rápida que los métodos más avanzados existentes, mostrando una ventaja de rendimiento significativa.
La arquitectura de Diffusion Transformer de video de Wan2.1 utiliza el mecanismo de atención completa para modelar eficazmente la dependencia espaciotemporal a largo plazo, generando videos de alta calidad y consistencia espaciotemporal. Su estrategia de entrenamiento adopta un método de entrenamiento gradual en 6 etapas, pasando gradualmente del preentrenamiento de datos de imágenes de baja resolución al entrenamiento de datos de video de alta resolución, y finalmente ajustando con datos etiquetados de alta calidad para asegurar un excelente rendimiento del modelo en diferentes resoluciones y escenarios complejos. En el procesamiento de datos, Wan2.1 diseñó un proceso de limpieza de datos de cuatro pasos, centrándose en la dimensión básica, la calidad visual y la calidad del movimiento, para seleccionar datos de alta calidad y diversidad de un conjunto de datos inicial ruidoso, promoviendo un entrenamiento eficaz.
En cuanto a la optimización de la eficiencia del entrenamiento y la inferencia del modelo, Wan2.1 adoptó múltiples estrategias. En la etapa de entrenamiento, se utilizan diferentes estrategias distribuidas para los módulos de codificación de texto y video y el módulo DiT, y se evita la redundancia computacional mediante un cambio eficiente de estrategias. En cuanto a la optimización de la memoria de video, se adopta una estrategia de optimización de memoria de video por niveles, combinada con el mecanismo de gestión de memoria de video de PyTorch para resolver el problema de la fragmentación de la memoria de video. En la etapa de inferencia, se utiliza una combinación de métodos FSDP y 2D CP para la aceleración distribuida de múltiples tarjetas, y se utiliza un método de cuantificación para mejorar aún más el rendimiento.
Actualmente, Tongyi Wanxiang Wan2.1 se ha publicado en código abierto en plataformas como GitHub, Hugging Face y la comunidad Moda, y admite varios frameworks principales. Los desarrolladores e investigadores pueden experimentar rápidamente con Gradio o utilizar la aceleración de inferencia paralela xDiT para mejorar la eficiencia. Al mismo tiempo, el modelo se está integrando rápidamente en Diffusers y ComfyUI para simplificar el proceso de inferencia y despliegue con un solo clic, reduciendo el umbral de desarrollo y ofreciendo a los usuarios opciones flexibles, ya sea para el desarrollo rápido de prototipos o el despliegue de producción eficiente.
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
Experiencia en línea:https://tongyi.aliyun.com/wanxiang