Colossal-AI a publié Open-Sora, une architecture complète et open-source reproduisant Sora. Ce projet prétend réduire les coûts de reproduction de 46 % et étend la longueur de la séquence d'entrée de l'entraînement du modèle à 819 000 patchs. Le rapport technique de Sora décrit son algorithme : un réseau de compression vidéo compresse des vidéos de différentes tailles en une séquence de blocs spatio-temporels dans un espace latent. Un transformateur de diffusion effectue ensuite le débruitage, suivi d'un décodage pour générer la vidéo. Open-Sora propose une architecture complète pour reproduire Sora, couvrant l'ensemble du processus, du traitement des données à l'inférence d'entraînement. Actuellement, Open-Sora offre une solution complète, incluant le traitement des données et l'inférence d'entraînement, et prenant en charge les résolutions dynamiques, plusieurs architectures de modèles, plusieurs méthodes de compression vidéo et plusieurs optimisations d'entraînement parallèle. En termes de performances, un test sur une seule GPU H800 SXM 8*80 Go avec le modèle DiT-XL/2 et une longueur de séquence de 600 000 a montré une amélioration des performances et une réduction des coûts de plus de 40 % par rapport à la solution de référence. Adresse GitHub d'Open-Sora : https://github.com/hpcaitech/Open-Sora.