Modelo de generación de video de código abierto Tongyi Wanxiang Wan2.1: 8.2 GB de VRAM para generar videos de 480P

Recientemente, Tongyi anunció la publicación de código abierto de su último modelo de lenguaje grande Wanxiang Wan2.1. Wan2.1 es un modelo de IA centrado en la generación de videos de alta calidad. Gracias a su excelente rendimiento en el manejo de movimientos complejos, la reproducción de leyes físicas reales, la mejora de la calidad cinematográfica y la optimización del seguimiento de instrucciones, se ha convertido en la herramienta preferida para creadores, desarrolladores y empresas que abrazan la era de la IA.

微信截图_20250226075714.png

En el conjunto de evaluación autorizado Vbench, Tongyi Wanxiang Wan2.1 alcanzó el primer lugar con una puntuación total del 86.22%, superando significativamente a otros modelos de generación de video conocidos a nivel nacional e internacional, como Sora, Minimax, Luma, Gen3 y Pika. Este logro se debe a que Wan2.1 se basa en los paradigmas principales de DiT y Flow Matching de trayectoria de ruido lineal, logrando un progreso significativo en la capacidad de generación a través de una serie de innovaciones tecnológicas. Entre ellas, el módulo VAE causal 3D de alta eficiencia de desarrollo propio logró una compresión de espacio latente de video sin pérdidas de 256 veces, y a través del mecanismo de caché de características admite la codificación y decodificación eficientes de videos de longitud arbitraria, al tiempo que reduce el 29% del consumo de memoria de inferencia. Además, en un entorno de una sola GPU A800, la velocidad de reconstrucción de video es 2,5 veces más rápida que los métodos más avanzados existentes, mostrando una ventaja de rendimiento significativa.

La arquitectura de Diffusion Transformer de video de Wan2.1 utiliza el mecanismo de atención completa para modelar eficazmente la dependencia espaciotemporal a largo plazo, generando videos de alta calidad y consistencia espaciotemporal. Su estrategia de entrenamiento adopta un método de entrenamiento gradual en 6 etapas, pasando gradualmente del preentrenamiento de datos de imágenes de baja resolución al entrenamiento de datos de video de alta resolución, y finalmente ajustando con datos etiquetados de alta calidad para asegurar un excelente rendimiento del modelo en diferentes resoluciones y escenarios complejos. En el procesamiento de datos, Wan2.1 diseñó un proceso de limpieza de datos de cuatro pasos, centrándose en la dimensión básica, la calidad visual y la calidad del movimiento, para seleccionar datos de alta calidad y diversidad de un conjunto de datos inicial ruidoso, promoviendo un entrenamiento eficaz.

微信截图_20250226075708.png

En cuanto a la optimización de la eficiencia del entrenamiento y la inferencia del modelo, Wan2.1 adoptó múltiples estrategias. En la etapa de entrenamiento, se utilizan diferentes estrategias distribuidas para los módulos de codificación de texto y video y el módulo DiT, y se evita la redundancia computacional mediante un cambio eficiente de estrategias. En cuanto a la optimización de la memoria de video, se adopta una estrategia de optimización de memoria de video por niveles, combinada con el mecanismo de gestión de memoria de video de PyTorch para resolver el problema de la fragmentación de la memoria de video. En la etapa de inferencia, se utiliza una combinación de métodos FSDP y 2D CP para la aceleración distribuida de múltiples tarjetas, y se utiliza un método de cuantificación para mejorar aún más el rendimiento.

Actualmente, Tongyi Wanxiang Wan2.1 se ha publicado en código abierto en plataformas como GitHub, Hugging Face y la comunidad Moda, y admite varios frameworks principales. Los desarrolladores e investigadores pueden experimentar rápidamente con Gradio o utilizar la aceleración de inferencia paralela xDiT para mejorar la eficiencia. Al mismo tiempo, el modelo se está integrando rápidamente en Diffusers y ComfyUI para simplificar el proceso de inferencia y despliegue con un solo clic, reduciendo el umbral de desarrollo y ofreciendo a los usuarios opciones flexibles, ya sea para el desarrollo rápido de prototipos o el despliegue de producción eficiente.

Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
Experiencia en línea:https://tongyi.aliyun.com/wanxiang

Noticias de IA

Modelo de generación de video de código abierto Tongyi Wanxiang Wan2.1: 8.2 GB de VRAM para generar videos de 480P

AIbase基地

Noticias de IA relacionadas recomendadas

CITIC Steel integra con éxito el modelo grande DeepSeek-R1 para impulsar la transformación digital

vivo lanza una nueva versión de "Blue Heart Little V" con capacidades de modelo grande DeepSeek, iniciando el pensamiento profundo inteligente

El asistente de voz Xiao AI de Xiaomi se integra de nuevo con el modelo grande DeepSeek R1

SuperMap completa con éxito la adaptación del modelo grande DeepSeek-V3/R1; SuperMap Copilot versión Beta ya disponible