Recientemente, HPC-AI Tech anunció el lanzamiento de Open-Sora2.0, un sistema de IA de video innovador que logra una calidad comercial con aproximadamente una décima parte del costo típico de entrenamiento. Este avance marca un posible cambio de paradigma en el ámbito de la IA de video, que consume muchos recursos, comparable a las mejoras de eficiencia observadas en los modelos de lenguaje.

Mientras que los sistemas de generación de video de alta calidad existentes, como Movie Gen y Step-Video-T2V, pueden requerir millones de dólares en costos de entrenamiento, Open-Sora2.0 solo necesitó aproximadamente 200.000 dólares. A pesar de la drástica reducción de costos, las pruebas demuestran que su calidad de salida es comparable a la de sistemas comerciales establecidos como Runway Gen-3Alpha y HunyuanVideo. El sistema se entrenó utilizando 224 GPU Nvidia H200.

Descripción: “Dos mujeres sentadas en un sofá beige, en una habitación acogedora y confortable con una pared de ladrillo de fondo. Conversan alegremente, sonrientes, brindando con vino tinto en un plano medio íntimo.” | Video: HPC-AI Tech

Open-Sora2.0 logra su eficiencia a través de un novedoso proceso de entrenamiento de tres etapas, comenzando con videos de baja resolución y refinándolos gradualmente hasta alcanzar una resolución más alta. La integración de modelos de imágenes preentrenados como Flux optimiza aún más el uso de recursos. Su núcleo es un autocodificador de video DC-AE que ofrece una tasa de compresión excepcional en comparación con los métodos tradicionales. Esta innovación se traduce en una velocidad de entrenamiento 5,2 veces más rápida y una velocidad de generación de video más de diez veces superior. Si bien la mayor tasa de compresión resulta en una ligera reducción de los detalles de salida, acelera enormemente el proceso de creación de video.

Descripción: “Un tomate hace surf sobre una hoja de lechuga, deslizándose por una cascada de salsa ranchera. Los movimientos exagerados de surf y las suaves olas resaltan la diversión de la animación 3D.” | Video: HPC-AI Tech

Este sistema de código abierto puede generar videos a partir de descripciones de texto e imágenes individuales, y permite a los usuarios controlar la intensidad del movimiento en los clips generados mediante una función de puntuación de movimiento. Los ejemplos proporcionados por HPC-AI Tech muestran una variedad de escenarios, incluyendo diálogos realistas y animaciones caprichosas.

Sin embargo, Open-Sora2.0 actualmente tiene limitaciones en la resolución (768x768 píxeles) y la duración máxima del video (5 segundos o 128 fotogramas), inferiores a las capacidades de modelos líderes como Sora de OpenAI. A pesar de esto, su rendimiento en áreas clave como la calidad visual, la precisión de los prompts y el procesamiento del movimiento se acerca a los estándares comerciales. Cabe destacar que la puntuación VBench de Open-Sora2.0 ahora solo está un 0,69% por detrás de Sora de OpenAI, una mejora significativa en comparación con la diferencia del 4,52% de la versión anterior.

Descripción: “Un grupo de hongos antropomórficos celebra una fiesta disco en un oscuro bosque mágico, con luces de neón parpadeantes y movimientos de baile exagerados. Sus texturas suaves y superficies reflectantes resaltan su aspecto caricaturesco en 3D.” | Video: HPC-AI Tech

La estrategia de rentabilidad de Open-Sora2.0 se hace eco del “momento Deepseek” en los modelos de lenguaje, cuando los métodos de entrenamiento mejorados permitieron que los sistemas de código abierto alcanzaran un rendimiento de nivel comercial a un costo mucho menor que los sistemas comerciales. Este desarrollo podría ejercer una presión a la baja sobre los precios en el campo de la IA de video, que actualmente se caracteriza por la alta demanda computacional y la facturación por segundos de servicio.

QQ20250320-091850.png

Comparación de costos de entrenamiento: Open-Sora2.0 requiere aproximadamente 200.000 dólares, mientras que Movie Gen requiere 2.500.000 dólares y Step-Video-T2V requiere 1.000.000 dólares. | Imagen: HPC-AI Tech

A pesar de este progreso, la brecha de rendimiento entre la IA de video de código abierto y la comercial sigue siendo mayor que en los modelos de lenguaje, lo que pone de manifiesto los desafíos tecnológicos que persisten en este campo. Open-Sora2.0 ya está disponible en GitHub como un proyecto de código abierto.