Fatigué des modèles de génération vidéo coûtant des millions de dollars ? Vous pensez que la création vidéo par IA est réservée aux géants ? Aujourd’hui, la communauté open source vous répond : « Non ! » Un nouveau modèle open source appelé Open-Sora 2.0 vient de faire son apparition, bouleversant complètement les règles du jeu en matière de génération vidéo. Incroyablement, ce grand modèle de 11 milliards de paramètres, dont les performances égalent celles des modèles commerciaux, a été entraîné pour seulement 200 000 $ (224 GPU) ! Comparés à Open-Sora 2.0, les modèles propriétaires qui coûtent des millions de dollars semblent incroyablement chers !
Le lancement d’Open-Sora 2.0 est une véritable révolution pour le secteur de la génération vidéo. Il offre non seulement des performances comparables, voire supérieures, à celles des modèles coûtant des millions de dollars, mais il adopte également une approche radicalement ouverte, en partageant les poids du modèle, le code d’inférence et le processus d’entraînement. Cela signifie que la technologie de génération vidéo par IA, autrefois inaccessible, est désormais à portée de main, et que chacun peut participer à cette vague créative passionnante !
Dépôt GitHub : https://github.com/hpcaitech/Open-Sora
1. Performances exceptionnelles : des preuves concrètes, des données parlantes
1.1 Effets époustouflants ! Aperçu des démonstrations vidéo d’Open-Sora 2.0
Des paroles ne suffisent pas, il faut voir pour croire ! Jusqu’à quel point les résultats de génération d’Open-Sora 2.0 sont-ils impressionnants ? Regardez directement les démonstrations vidéo pour vous faire votre propre idée :
Une maîtrise du cadrage ! Une précision des mouvements : que ce soit les mouvements délicats des personnages ou la mise en scène grandiose des scènes, Open-Sora 2.0 maîtrise l’amplitude des mouvements avec la précision d’un réalisateur professionnel, le rendu visuel est exceptionnel !
Une qualité d’image incroyable ! Une fluidité parfaite : avec une résolution HD 720p et une fréquence d’images stable de 24 FPS, les vidéos générées par Open-Sora 2.0 offrent une clarté et une fluidité impeccables, surpassant largement les produits concurrents sur le marché. L’expérience visuelle est incroyable !
Des scènes variées ! Une maîtrise complète : paysages bucoliques, paysages urbains nocturnes, univers de science-fiction… Open-Sora 2.0 maîtrise toutes sortes de scènes complexes, avec des détails époustouflants et des mouvements de caméra fluides et naturels. C’est le « Léonard de Vinci de l’IA » !
1.2 Une échelle de paramètres « petit mais costaud », des performances à la hauteur des géants propriétaires
Open-Sora 2.0 n’est pas qu’une façade, il possède un véritable savoir-faire technique. Avec seulement 11 milliards de paramètres, il dégage une énergie étonnante et obtient des résultats exceptionnels sur les plateformes d’évaluation de référence VBench et lors d’évaluations subjectives des utilisateurs, rivalisant avec les géants propriétaires comme HunyuanVideo et 30B Step-Video. C’est un véritable exemple de « petit mais costaud » !
Les utilisateurs ont le dernier mot ! Évaluation des préférences dominant la concurrence : sur les trois axes que sont l’effet visuel, la cohérence du texte et la représentation des mouvements, Open-Sora 2.0 surpasse le modèle open source SOTA HunyuanVideo sur au moins deux indicateurs, et dépasse même des modèles commerciaux comme Runway Gen-3Alpha, prouvant ainsi que « la qualité n’est pas toujours chère » !
Le classement VBench « certifie les performances », des performances proches du sommet : dans le classement VBench, le plus réputé du secteur de la génération vidéo, la progression d’Open-Sora 2.0 est fulgurante. Entre les versions 1.2 et 2.0, l’écart de performance avec le modèle propriétaire OpenAI Sora est passé de 4,52 % à seulement 0,69 %, une différence négligeable ! Plus encourageant encore, le score d’Open-Sora 2.0 au classement VBench dépasse celui de Tencent HunyuanVideo, prouvant une fois de plus son énorme avantage en termes de « faible investissement, rendement élevé », établissant une nouvelle référence pour la technologie de génération vidéo open source !
2. Un processus de création à faible coût : le secret technique derrière l’open source
Depuis son lancement en open source, Open-Sora s’est rapidement imposé comme un incontournable de la communauté open source grâce à ses capacités de génération vidéo efficaces et de haute qualité. Mais le défi était de taille : comment briser le sort du « coût élevé » de la génération vidéo de haute qualité et permettre à un plus grand nombre de personnes de participer ? L’équipe Open-Sora a relevé le défi et, grâce à une série d’innovations techniques, a réussi à réduire les coûts d’entraînement du modèle de 5 à 10 fois ! Alors que les coûts d’entraînement sur le marché atteignent facilement des millions de dollars, Open-Sora 2.0 n’a coûté que 200 000 $, ce qui en fait le « roi du rapport qualité-prix du monde open source » !
Open-Sora a non seulement rendu le code et les poids du modèle open source, mais il a également généreusement partagé le code d’entraînement complet, créant ainsi un écosystème open source dynamique. En seulement six mois, le nombre de citations de l’article scientifique sur Open-Sora a atteint près de 100, et il se classe parmi les meilleurs du classement mondial de l’influence open source, surpassant tous les projets de génération vidéo I2V/T2V open source, devenant ainsi le « leader incontesté de la génération vidéo open source ».
2.1 Architecture du modèle : héritage et innovation
L’architecture d’Open-Sora 2.0 hérite de l’essence de la version 1.2 tout en introduisant des innovations audacieuses : elle conserve l’encodeur 3D et le cadre d’entraînement Flow Matching, ainsi que le mécanisme d’entraînement multi-bucket, garantissant la compatibilité du modèle avec les vidéos de différentes longueurs et résolutions. Elle intègre également plusieurs « technologies de pointe » pour améliorer encore les capacités de génération vidéo :
Intégration d’un mécanisme d’attention 3D complet : capture plus précise des informations temporelles et spatiales dans les vidéos, pour des vidéos générées plus cohérentes et plus riches en détails.
Architecture MMDiT « assistance divine » : compréhension plus précise du lien entre les instructions textuelles et le contenu vidéo, pour une expression sémantique plus précise et plus pertinente de la vidéo générée à partir de texte.
Augmentation de la taille du modèle à 11 milliards : une capacité de modèle plus importante signifie une capacité d’apprentissage et un potentiel de génération plus élevés, la qualité vidéo s’améliorant naturellement.
Modèle FLUX « de base », efficacité d’entraînement « décollage » : en s’inspirant du succès du modèle de génération vidéo à partir d’images FLUX, l’initialisation du modèle réduit considérablement le temps et le coût d’entraînement, ce qui accélère considérablement l’efficacité de l’entraînement du modèle.
2.2 Secrets d’entraînement efficace : processus complet open source, contribuant à la forte réduction des coûts
Pour réduire les coûts d’entraînement au minimum, Open-Sora 2.0 a fait des efforts considérables sur les données, la puissance de calcul et les stratégies, devenant ainsi le « spécialiste de l’économie du monde open source » :
Données « choisies avec soin », qualité « exceptionnelle » : l’équipe Open-Sora est consciente du principe « garbage in, garbage out » et a procédé à un filtrage minutieux des données d’entraînement pour garantir que chaque donnée est de « haute qualité », améliorant ainsi l’efficacité de l’entraînement du modèle dès la source. Le mécanisme de filtrage des données multi-étapes et multi-niveaux, associé à divers filtres « high-tech », améliore encore la qualité des données vidéo, fournissant le « carburant » optimal pour l’entraînement du modèle.
Puissance de calcul « optimisée », entraînement à basse résolution « en tête » : le coût de l’entraînement vidéo haute résolution est bien supérieur à celui de l’entraînement vidéo basse résolution, l’écart de puissance de calcul pouvant atteindre 40 fois ! Open-Sora 2.0 contourne habilement le « choc frontal » en donnant la priorité à l’entraînement à basse résolution, apprenant efficacement les informations de mouvement dans les vidéos, réduisant considérablement les coûts tout en garantissant que le modèle maîtrise les « compétences essentielles » de la génération vidéo, ce qui est véritablement « un gain de temps et d’argent ».
Stratégie « flexible », génération vidéo à partir d’images « solution détournée » : Open-Sora 2.0 n’a pas directement « lutté » contre l’entraînement vidéo haute résolution au départ, mais a adopté une stratégie plus intelligente de « contournement » : donner la priorité à l’entraînement du modèle de génération vidéo à partir d’images, afin d’accélérer la vitesse de convergence du modèle. En fait, le modèle de génération vidéo à partir d’images converge plus rapidement et coûte moins cher lors de l’augmentation de la résolution, ce qui est un « double avantage ». Au stade de l’inférence, Open-Sora 2.0 prend également en charge le mode « génération de texte vers image puis vidéo » (T2I2V), les utilisateurs peuvent d’abord générer des images de haute qualité à partir de texte, puis convertir les images en vidéos pour obtenir des effets visuels plus fins, « toutes les routes mènent à Rome ».
Entraînement parallèle « à pleine puissance », taux d’utilisation de la puissance de calcul « exploiter jusqu’à la dernière goutte » : Open-Sora 2.0 sait que « un fil ne fait pas un tissu, un arbre ne fait pas une forêt », il adopte donc un schéma d’entraînement parallèle efficace, « armé jusqu’aux dents » avec ColossalAI et des techniques d’optimisation au niveau du système, maximisant le taux d’utilisation des ressources de calcul, permettant au cluster GPU de « fonctionner à pleine puissance » et de réaliser un entraînement de génération vidéo plus efficace. Grâce à une série de « technologies de pointe », l’efficacité de l’entraînement d’Open-Sora 2.0 a été « boostée », et les coûts ont été considérablement réduits :
Parallélisme séquentiel + ZeroDP : optimisation de l’efficacité du calcul distribué des grands modèles, réalisation de « l’union fait la force ».
Gradient Checkpointing granulaire : réduction de l’occupation de la mémoire tout en maintenant l’efficacité du calcul, réalisation de « l’économie et l’efficacité ».
Mécanisme de reprise automatique de l’entraînement : garantir plus de 99 % de temps d’entraînement efficace, réduire le gaspillage de ressources, réaliser « la stabilité et la fiabilité ».
Chargement efficace des données + gestion de la mémoire : optimisation des E/S, prévention des blocages de l’entraînement, accélération du processus d’entraînement, réalisation de « la vitesse maximale ».
Sauvegarde de modèle asynchrone : réduction des interférences de stockage du modèle sur l’entraînement, amélioration du taux d’utilisation du GPU, réalisation de « la polyvalence ».
Optimisation des opérateurs : optimisation approfondie des modules de calcul clés, accélération du processus d’entraînement, réalisation de « l’accélération et de l’amélioration de l’efficacité ».
Grâce à ces mesures d’optimisation combinées, Open-Sora 2.0 a trouvé un équilibre parfait entre hautes performances et faible coût, réduisant considérablement le seuil d’entraînement des modèles de génération vidéo de haute qualité et permettant à un plus grand nombre de personnes de participer à cette fête technologique.
2.3 AE à haut taux de compression « assistance divine », vitesse d’inférence « encore plus rapide »
Il ne suffit pas de réduire les coûts d’entraînement, la vitesse d’inférence doit également suivre ! Open-Sora 2.0 vise l’avenir en explorant l’application d’autoencodeurs vidéo (AE) à haut taux de compression, afin de réduire encore les coûts d’inférence et d’améliorer la vitesse de génération vidéo. Actuellement, les modèles vidéo courants utilisent un autoencodeur 4×8×8, la génération d’une vidéo de 768 px et de 5 secondes prend près de 30 minutes sur une seule carte, l’efficacité de l’inférence doit être améliorée. Open-Sora 2.0 a entraîné un autoencodeur vidéo à haut taux de compression (4×32×32), réduisant le temps d’inférence à moins de 3 minutes sur une seule carte, soit une amélioration de la vitesse de 10 fois ! C’est une génération à la « vitesse de la lumière » !
Bien que les encodeurs à haut taux de compression soient excellents, leur entraînement est extrêmement difficile. L’équipe Open-Sora a relevé le défi, en introduisant des connexions résiduelles dans le module d’échantillonnage ascendant et descendant de la vidéo, réussissant à entraîner un VAE dont la qualité de reconstruction est comparable à celle des modèles de compression vidéo SOTA, avec un taux de compression encore plus élevé, jetant ainsi les bases d’une inférence efficace. Pour résoudre les problèmes de forte demande de données et de difficulté de convergence de l’entraînement des autoencodeurs à haut taux de compression, Open-Sora a également proposé une stratégie d’optimisation basée sur la distillation, et a utilisé des modèles de haute qualité déjà entraînés pour l’initialisation, réduisant ainsi les besoins en données et en temps. Parallèlement, l’entraînement des tâches de génération vidéo à partir d’images est privilégié, en utilisant les caractéristiques des images pour guider la génération vidéo, accélérant la convergence de l’autoencodeur à haute compression, réalisant ainsi un « double gain » en termes de vitesse d’inférence et de qualité de génération.
L’équipe Open-Sora est convaincue que les autoencodeurs vidéo à haut taux de compression seront une direction clé du développement futur de la technologie de génération vidéo. Les résultats préliminaires des expériences ont déjà montré des effets d’accélération de l’inférence étonnants, et ils espèrent attirer davantage de forces de la communauté pour explorer ensemble le potentiel des autoencodeurs vidéo à haut taux de compression, promouvoir un développement plus rapide de la technologie de génération vidéo efficace et à faible coût, et permettre à la création vidéo par IA de devenir une réalité pour tous.
3. Appel à l’open source ! Ensemble vers une nouvelle étape de la révolution vidéo par IA
Aujourd’hui, Open-Sora 2.0 est officiellement open source ! Nous invitons chaleureusement les développeurs du monde entier, les organismes de recherche et les amateurs d’IA à rejoindre la communauté Open-Sora, à construire ensemble et à faire progresser ensemble la vague de la révolution vidéo par IA, pour un avenir de la création vidéo plus ouvert, plus inclusif et plus passionnant !
Dépôt GitHub : https://github.com/hpcaitech/Open-Sora
Rapport technique :
https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf