Recientemente, Alibaba anunció la liberación de código abierto de su modelo de generación de video WanX2.1, junto con la publicación de los últimos resultados de video.

En enero de 2025, el equipo Tongyi Wanxiang de Alibaba lanzó el modelo multimodal de gran tamaño Wanx2.1. Gracias a sus avances innovadores en la generación de video, ocupó el primer lugar en la lista de evaluación VBench, redefiniendo el estándar de creación visual impulsada por IA. El equipo de WanX[anunció anoche el lanzamiento de código abierto de su último modelo de generación de video WANX2.1.

Según se informa, Wanx2.1 ha superado por primera vez el desafío de larga data en los modelos de video de IA de generar texto, convirtiéndose en el primer modelo del mundo que admite efectos de texto en chino e inglés. Los usuarios solo necesitan introducir instrucciones de texto para generar videos dinámicos, junto con una variedad de transiciones y efectos de partículas. Además, mediante el uso de su arquitectura VAE y DiT de alta eficiencia de desarrollo propio, el modelo ha logrado una codificación y decodificación eficiente de videos 1080P de longitud ilimitada, mejorando significativamente la capacidad de modelado del contexto espacio-temporal.

En cuanto a la simulación de leyes físicas, WanX2.1 puede reproducir con precisión escenas complejas como colisiones, rebotes y cortes. Por ejemplo, al generar videos de "gotas de lluvia salpicando en una superficie de paraguas" o "un patinador artístico girando", la coordinación de las extremidades y la trayectoria del movimiento cumplen con las leyes físicas reales, lo que resuelve eficazmente el problema de la distorsión de las extremidades y la rigidez de los movimientos en los modelos tradicionales.