Hoy, Jieyue Xingchen y Geely Automobile Group anunciaron conjuntamente la publicación de código abierto de dos modelos multimodales de la serie Step: el modelo de generación de video Step-Video-T2V y el modelo de voz Step-Audio.

Entre ellos, el modelo de generación de video Step-Video-T2V de Jieyue se encuentra a la vanguardia mundial tanto en cantidad de parámetros como en rendimiento. Este modelo cuenta con 30 mil millones de parámetros y puede generar directamente videos de alta calidad de 204 fotogramas y resolución 540P, garantizando una alta densidad de información y una fuerte coherencia en el contenido generado. Los resultados de las evaluaciones muestran que Step-Video-T2V destaca en el cumplimiento de instrucciones, suavidad del movimiento, razonabilidad física y estética, superando significativamente los mejores modelos de video de código abierto existentes en el mercado.

微信截图_20250218085337.png

Actualmente, ambos modelos ya están disponibles en la aplicación Yuewen para que los desarrolladores los prueben y proporcionen valiosas sugerencias.

El modelo de generación de video Step-Video-T2V muestra una capacidad de generación excepcional en movimientos complejos, personajes estéticos e imaginación visual. Puede comprender las instrucciones con precisión y ayudar eficazmente a los creadores de video a lograr una presentación creativa. Ya sea un elegante ballet, un intenso karate, un emocionante bádminton o un salto de clavado de alta velocidad, Step-Video-T2V puede generar imágenes realistas y que cumplen con las leyes de la física.

Además, admite varios métodos de movimiento de cámara y cambios de toma, pudiendo generar efectos visuales con movimientos de cámara amplios. Las figuras generadas son más realistas y vívidas, con detalles ricos y expresiones naturales.

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

Informe técnico:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf