¿Todavía se siente intimidado por los modelos de generación de video que cuestan millones de dólares? ¿Sigue pensando que la creación de videos con IA es solo un juego para gigantes? ¡Hoy, la comunidad de código abierto le dice que "No!" Con la llegada del nuevo modelo de código abierto Open-Sora 2.0, se ha revolucionado por completo la regla del "pago excesivo" en la generación de videos. ¡Increíblemente, este gran modelo de 11 mil millones de parámetros, con un rendimiento comparable al nivel comercial, se entrenó con solo 200.000 dólares (224 GPU)! Los modelos cerrados que cuestan millones de dólares parecen anticuados en comparación con Open-Sora 2.0.
El lanzamiento de Open-Sora 2.0 es, sin duda, una "revolución popular" en el campo de la generación de video. No solo posee una potencia comparable o incluso superior a la de los modelos de millones de dólares, sino que también adopta una postura de apertura sin precedentes, haciendo públicos los pesos del modelo, el código de inferencia y el proceso de entrenamiento, abriendo por completo la "caja de Pandora" de la creación de videos de alta calidad. Esto significa que la tecnología de generación de video con IA, que alguna vez fue inaccesible, ahora está al alcance de todos, y todos tienen la oportunidad de participar en esta emocionante ola creativa.
Repositorio de código abierto de GitHub: https://github.com/hpcaitech/Open-Sora
1. Capacidad técnica: ver para creer, los datos hablan por sí solos
1.1 ¡Efectos increíbles! Avance de la demostración de video de Open-Sora 2.0
¡No se necesita hablar, solo ver! ¿Qué tan sorprendente es el efecto de generación de Open-Sora 2.0? Veamos directamente el video de demostración:
¡Operación de cámara excepcional! Control preciso de la amplitud de movimiento: ya sea el movimiento delicado de los personajes o la gran disposición de las escenas, Open-Sora 2.0 puede controlar con precisión la amplitud del movimiento, como un director profesional, y la capacidad de expresión de la imagen es máxima.
¡Calidad de imagen excepcional! Fluidez comparable a la seda: con una resolución de alta definición de 720p y una frecuencia de fotogramas estable de 24 FPS, los videos generados por Open-Sora 2.0 tienen una claridad y fluidez impecables, superando completamente a los productos similares en el mercado, y la experiencia visual es simplemente "increíble".
¡Escenas cambiantes! Capacidad de control integral: paisajes rurales, paisajes nocturnos urbanos, universos de ciencia ficción... Open-Sora 2.0 puede manejar fácilmente todo tipo de escenas complejas, con detalles de imagen increíblemente ricos y una operación de cámara fluida y natural, ¡es simplemente el "Da Vinci de la IA"!
1.2 Escala de parámetros "pequeño pero poderoso", rendimiento comparable a los gigantes de código cerrado
Open-Sora 2.0 no es solo "apariencia", sino que tiene una sólida "capacidad técnica". Con una escala de parámetros de solo 11 mil millones, ha generado una energía asombrosa, logrando resultados excelentes en las plataformas de evaluación autorizadas VBench y en las evaluaciones subjetivas de los usuarios, compitiendo con gigantes de código cerrado como HunyuanVideo y 30B Step-Video, lo que lo convierte en un ejemplo clásico de "pequeño pero poderoso".
Los usuarios opinan: evaluación de preferencias que supera a todos los demás: en las tres dimensiones de efectos visuales, coherencia de texto y expresión de movimiento, Open-Sora 2.0 supera al menos dos indicadores del modelo SOTA de código abierto HunyuanVideo, e incluso supera a modelos comerciales como Runway Gen-3Alpha, demostrando con su capacidad que "la calidad no depende del precio".
La lista VBench "certifica la capacidad", el rendimiento se acerca al límite superior: en la lista VBench, la más autorizada en el campo de la generación de video, la velocidad de progreso de Open-Sora 2.0 es como un "cohete". De la versión 1.2 a la 2.0, la diferencia de rendimiento con el modelo de código cerrado OpenAI Sora se redujo del 4,52% al 0,69%, prácticamente insignificante. Lo que es aún más emocionante es que la puntuación de Open-Sora 2.0 en la evaluación VBench ya ha superado a Tencent HunyuanVideo, demostrando una vez más su enorme ventaja de "baja inversión, alta producción", estableciendo un nuevo hito para la tecnología de generación de video de código abierto.
2. Historia de bajo costo: el código secreto detrás del código abierto
Desde su lanzamiento de código abierto, Open-Sora se ha convertido rápidamente en el "favorito" de la comunidad de código abierto gracias a su capacidad de generación de video eficiente y de alta calidad. Sin embargo, el desafío es: ¿cómo romper el hechizo de "alto costo" de la generación de video de alta calidad y permitir que más personas participen? El equipo de Open-Sora ha asumido el desafío y, mediante una serie de innovaciones tecnológicas, ha reducido el costo de entrenamiento del modelo en 5 a 10 veces. El costo de entrenamiento de millones de dólares en el mercado se ha reducido a solo 200.000 dólares en Open-Sora 2.0, ¡es realmente el "rey de la relación calidad-precio en el mundo de código abierto"!
Open-Sora no solo ha publicado el código y los pesos del modelo, sino que también ha publicado generosamente el código de entrenamiento del proceso completo, creando un ecosistema de código abierto dinámico. En solo medio año, las citas de artículos académicos de Open-Sora se han acercado a las cien, ocupando un lugar destacado en la lista de influencia de código abierto global, superando a todos los proyectos de generación de video I2V/T2V de código abierto, convirtiéndose en el "líder indiscutible de la generación de video de código abierto".
2.1 Arquitectura del modelo: herencia e innovación
En la arquitectura del modelo, Open-Sora 2.0 hereda la esencia de la versión 1.2 y realiza innovaciones audaces: continúa utilizando el marco de entrenamiento de autocodificador 3D y Flow Matching, y conserva el mecanismo de entrenamiento multi-bucket para garantizar que el modelo pueda "absorber lo mejor de ambos mundos" y procesar videos de diferentes longitudes y resoluciones. Al mismo tiempo, también ha introducido varias "tecnologías de vanguardia" para mejorar aún más la capacidad de generación de video:
Mejora con el mecanismo de atención total 3D: captura con mayor precisión la información temporal y espacial en el video, haciendo que las imágenes del video generado sean más coherentes y los detalles más ricos.
Arquitectura MMDiT "asistente mágico": comprende con mayor precisión la relación entre las instrucciones de texto y el contenido del video, haciendo que la expresión semántica del video generado por texto sea más precisa y precisa.
Aumento de la escala del modelo a 11B: una mayor capacidad del modelo significa una mayor capacidad de aprendizaje y potencial de generación, y la calidad del video aumenta naturalmente.
Modelo FLUX "base", eficiencia de entrenamiento "despegando": tomando prestada la experiencia exitosa del modelo de generación de video a partir de imágenes FLUX de código abierto, se realiza la inicialización del modelo, lo que reduce considerablemente el tiempo y el costo de entrenamiento, haciendo que la eficiencia de entrenamiento del modelo "despegue".
2.2 Secretos de entrenamiento eficiente: proceso completo de código abierto, ayuda a reducir drásticamente los costos
Para reducir el costo de entrenamiento al "precio más bajo", Open-Sora 2.0 ha realizado un trabajo completo en datos, potencia informática y estrategias, convirtiéndose en el "experto en ahorro de costos del mundo de código abierto":
Datos "seleccionados cuidadosamente", calidad "uno entre diez mil": el equipo de Open-Sora sabe bien el principio de "basura adentro, basura afuera", por lo que realiza una selección "exhaustiva" de los datos de entrenamiento para garantizar que cada dato sea de "alta calidad", mejorando la eficiencia del entrenamiento del modelo desde la fuente. El mecanismo de selección de datos multietapa y multinivel, junto con varios filtros de "tecnología de vanguardia", mejora la calidad de los datos de video y proporciona el "combustible" de la más alta calidad para el entrenamiento del modelo.
Potencia informática "calculada cuidadosamente", entrenamiento de baja resolución "liderando el camino": el costo de entrenamiento de video de alta resolución es mucho mayor que el de video de baja resolución, y la diferencia de potencia informática entre ambos puede llegar a ser hasta 40 veces. Open-Sora 2.0 evita inteligentemente el "choque directo", dando prioridad al entrenamiento de baja resolución, aprendiendo eficientemente la información de movimiento en el video, reduciendo considerablemente el costo y garantizando que el modelo pueda dominar las "habilidades centrales" de la generación de video, lo que se puede considerar como "hacer más con menos".
Estrategias "flexibles y cambiantes", generación de video a partir de imágenes "solución indirecta": Open-Sora 2.0 no se "obsesiona" con el entrenamiento de video de alta resolución desde el principio, sino que adopta una estrategia más inteligente de "ataque indirecto": da prioridad al entrenamiento del modelo de generación de video a partir de imágenes, acelerando la velocidad de convergencia del modelo. De hecho, el modelo de generación de video a partir de imágenes tiene una velocidad de convergencia más rápida y un costo de entrenamiento más bajo al mejorar la resolución, lo que se puede considerar como "dos pájaros de un tiro". En la etapa de inferencia, Open-Sora 2.0 también admite el modo "generación de video a partir de texto e imágenes" (T2I2V), los usuarios pueden generar primero imágenes de alta calidad a partir de texto y luego convertir las imágenes en video para obtener efectos visuales más delicados, "todos los caminos llevan a Roma".
Entrenamiento paralelo "a plena potencia", tasa de utilización de la potencia informática "hasta la última gota": Open-Sora 2.0 sabe bien el principio de "una hebra no forma un hilo, un árbol no forma un bosque", por lo que adopta un esquema de entrenamiento paralelo eficiente, "armando hasta los dientes" con ColossalAI y tecnologías de optimización a nivel de sistema, mejorando al máximo la tasa de utilización de los recursos informáticos, haciendo que el clúster de GPU "funcione a plena potencia" y logre un entrenamiento de generación de video más eficiente. Gracias a una serie de mejoras de "tecnología de vanguardia", la eficiencia de entrenamiento de Open-Sora 2.0 "despega" y el costo se reduce considerablemente:
Paralelismo de secuencias + ZeroDP: optimiza la eficiencia del cálculo distribuido de modelos a gran escala, logrando "más manos, más trabajo".
Punto de control de gradiente de grano fino: reduce el uso de memoria al tiempo que mantiene la eficiencia del cálculo, logrando "ahorro y eficiencia".
Mecanismo de recuperación automática de entrenamiento: garantiza más del 99% del tiempo de entrenamiento efectivo, reduciendo el desperdicio de recursos y logrando "estabilidad y fiabilidad".
Carga de datos eficiente + gestión de memoria: optimiza E/S, evita bloqueos de entrenamiento, acelera el proceso de entrenamiento y logra "velocidad continua".
Almacenamiento de modelos asíncrono: reduce la interferencia del almacenamiento de modelos en el entrenamiento, mejora la tasa de utilización de la GPU y logra "multitarea".
Optimización del operador: optimización profunda de los módulos de cálculo clave, acelerando el proceso de entrenamiento y logrando "aumento de velocidad y eficiencia".
Con estas medidas de optimización "combinadas", Open-Sora 2.0 ha encontrado un equilibrio perfecto entre alto rendimiento y bajo costo, reduciendo considerablemente el umbral de entrenamiento de modelos de generación de video de alta calidad y permitiendo que más personas participen en este festín tecnológico.
2.3 AE de alta tasa de compresión "asistente mágico", velocidad de inferencia "aumenta aún más"
¡Reducir el costo de entrenamiento no es suficiente, la velocidad de inferencia también debe mejorar! Open-Sora 2.0 apunta al futuro, explorando la aplicación de autocodificadores de video (AE) de alta tasa de compresión para reducir aún más el costo de inferencia y mejorar la velocidad de generación de video. Actualmente, los modelos de video convencionales utilizan autocodificadores de 4×8×8, y la generación de video de 768 px y 5 segundos tarda casi 30 minutos en una sola tarjeta, por lo que la eficiencia de inferencia necesita una mejora urgente. Open-Sora 2.0 ha entrenado un autocodificador de video de alta tasa de compresión (4×32×32), reduciendo el tiempo de inferencia a menos de 3 minutos en una sola tarjeta, ¡una mejora de 10 veces! ¡Es simplemente una generación a "velocidad de la luz"!
Si bien los codificadores de alta tasa de compresión son buenos, la dificultad de entrenamiento es extremadamente alta. El equipo de Open-Sora ha asumido el desafío, introduciendo conexiones residuales en el módulo de muestreo ascendente y descendente de video, entrenando con éxito un VAE con una calidad de reconstrucción comparable a los modelos de compresión de video SOTA y una tasa de compresión aún mayor, sentando una base sólida para una inferencia eficiente. Para resolver los problemas de gran demanda de datos de entrenamiento y alta dificultad de convergencia de los autocodificadores de alta tasa de compresión, Open-Sora también propuso una estrategia de optimización basada en la destilación, y utilizó modelos de alta calidad ya entrenados para la inicialización, reduciendo la demanda de datos y tiempo. Al mismo tiempo, se centra en el entrenamiento de tareas de generación de video a partir de imágenes, utilizando características de imagen para guiar la generación de video, acelerando la convergencia del autocodificador de alta compresión, y finalmente logrando una "doble victoria" en la velocidad de inferencia y la calidad de generación.
El equipo de Open-Sora cree firmemente que los autocodificadores de video de alta tasa de compresión serán una dirección clave para el desarrollo futuro de la tecnología de generación de video. Los resultados preliminares de los experimentos ya han mostrado un sorprendente efecto de aceleración de la inferencia, y esperan atraer a más fuerzas de la comunidad para explorar conjuntamente el potencial de los autocodificadores de video de alta tasa de compresión, promoviendo un desarrollo más rápido de la tecnología de generación de video eficiente y de bajo costo, y permitiendo que la creación de video con IA realmente "llegue a las casas de la gente común".
3. ¡Llamada de reunión de código abierto! Juntos hacia una nueva jornada de la revolución de video con IA
¡Hoy, Open-Sora 2.0 se lanza oficialmente como código abierto! Invitamos sinceramente a desarrolladores globales, instituciones de investigación y entusiastas de la IA a unirse a la comunidad Open-Sora, trabajar juntos y promover conjuntamente la ola de la revolución de video con IA, haciendo que el futuro de la creación de video sea más abierto, inclusivo y emocionante.
Repositorio de código abierto de GitHub: https://github.com/hpcaitech/Open-Sora
Informe técnico:
https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf