Colossal-AI ha lanzado Open-Sora, una arquitectura completa de código abierto para reproducir Sora, que afirma reducir el coste de reproducción en un 46% y ampliar la longitud de la secuencia de entrada del entrenamiento del modelo a 819K patches. El esquema de reproducción del algoritmo Sora, según el informe técnico de Sora, utiliza una red de compresión de vídeo para comprimir vídeos de varios tamaños en una secuencia de bloques espacio-temporales en un espacio latente. Luego, utiliza Diffusion Transformer para eliminar el ruido y finalmente decodifica para generar vídeo. Open-Sora resume el posible pipeline de entrenamiento utilizado por Sora para proporcionar una arquitectura completa de reproducción de Sora, que abarca todo el proceso, desde el procesamiento de datos hasta la inferencia de entrenamiento. Actualmente, Open-Sora ya ofrece una arquitectura completa para reproducir Sora, que abarca todo el proceso, desde el procesamiento de datos hasta la inferencia de entrenamiento; admite resolución dinámica, varias estructuras de modelos, varios métodos de compresión de vídeo y varias optimizaciones de entrenamiento paralelo. En cuanto al rendimiento, tomando como ejemplo las pruebas de rendimiento con el modelo DiT-XL/2 en una sola GPU H800 SXM 8*80GB, con una longitud de secuencia de 600K, la solución Open-Sora ofrece una mejora del rendimiento y una reducción de costes superior al 40% en comparación con la solución de referencia. Dirección de Open-Sora en GitHub: https://github.com/hpcaitech/Open-Sora.