Hoy, Alibaba anunció oficialmente la liberación de código abierto de su modelo de generación de video Wanxiang 2.1, lanzando versiones de 14B y 1.3B. La versión profesional de 14B, de alto rendimiento, ofrece una capacidad de expresión líder en la industria y satisface las necesidades de escenarios con requisitos de alta calidad de video; mientras que la versión ultrarrápida de 1.3B, apta para tarjetas gráficas de consumo, puede generar videos de alta calidad de 480P con solo 8.2 GB de VRAM, siendo ideal para el desarrollo secundario de modelos e investigación académica.

Imagen

Según la presentación oficial, el Wanxiang 2.1 de código abierto muestra ventajas significativas en el manejo de movimientos complejos, la reproducción de leyes físicas reales, la mejora de la calidad cinematográfica y la optimización del cumplimiento de instrucciones, satisfaciendo las diversas necesidades de creadores, desarrolladores y usuarios empresariales. Con Tongyi Wanxiang, los usuarios pueden generar videos de alta calidad con facilidad, especialmente en los campos de la publicidad y los videos cortos, satisfaciendo las altas exigencias de creatividad.

En el conjunto de evaluación autorizado VBench, Tongyi Wanxiang ocupa el primer lugar con una puntuación total del 86.22%, superando con creces a otros modelos de generación de video nacionales e internacionales como Sora, Minimax y Luma. Esta evaluación se basa en los paradigmas principales de DiT y Flow Matching de trayectoria de ruido lineal, mejorando la capacidad de generación del modelo a través de una serie de innovaciones tecnológicas. En particular, el módulo VAE causal 3D de alta eficiencia de desarrollo propio ha logrado una compresión de espacio latente de video sin pérdidas de 256 veces, lo que permite la codificación y decodificación eficientes de videos de cualquier longitud.

QQ_1740534242356.png

Durante la generación de videos, Tongyi Wanxiang utiliza un mecanismo de atención completa basado en la estructura DiT principal, modelando eficazmente la dependencia espacio-temporal y garantizando la alta calidad y coherencia de los videos generados. La estrategia de entrenamiento del modelo adopta un método de entrenamiento por etapas de 6 fases, que comienza con el entrenamiento de datos de baja resolución e introduce gradualmente datos de alta resolución para garantizar el rendimiento excepcional del modelo en diferentes condiciones. Además, Tongyi Wanxiang también ha adoptado un estricto proceso de limpieza de datos para garantizar la alta calidad de los datos de entrenamiento.

En cuanto a la optimización de la eficiencia de entrenamiento e inferencia, Tongyi Wanxiang ha empleado diversas tecnologías avanzadas, como estrategias de entrenamiento distribuido, optimización de valores de activación y gestión de memoria, para garantizar la estabilidad del entrenamiento del modelo y la eficiencia de la inferencia. Combinado con la programación inteligente del clúster de entrenamiento de Alibaba Cloud, el modelo puede identificar y reiniciar automáticamente los fallos durante el entrenamiento, garantizando la fluidez del proceso de entrenamiento.

Tongyi Wanxiang 2.1 ya está disponible en plataformas de código abierto como GitHub y Hugging Face, admite varios frameworks principales y ofrece una experiencia de usuario conveniente para desarrolladores e investigadores. Ya sea para el desarrollo rápido de prototipos o la implementación de producción eficiente, Tongyi Wanxiang puede satisfacer las necesidades de diferentes usuarios e inyectar nueva vitalidad en el desarrollo de la tecnología de generación de video.

QQ_1740534298370.png

Enlace a la comunidad Mota: https://modelscope.cn/organization/Wan-AI

Puntos clave:

🌟 Tongyi Wanxiang 2.1 de código abierto, admite diversas necesidades de generación de video.

🏆 Obtuvo una alta puntuación del 86.22% en la evaluación VBench, superando a otros modelos.

🚀 El entrenamiento por etapas y varias optimizaciones tecnológicas mejoran la eficiencia y la calidad de la generación.