Récemment, HPC-AI Tech a annoncé le lancement d'Open-Sora2.0, un système d'IA vidéo révolutionnaire capable d'atteindre une qualité commerciale pour environ un dixième du coût de formation typique. Cette avancée marque un changement de paradigme potentiel dans le domaine de l'IA vidéo, gourmand en ressources, comparable aux améliorations d'efficacité observées dans les modèles linguistiques.

Alors que les systèmes de génération de vidéos de haute qualité existants, tels que Movie Gen et Step-Video-T2V, peuvent nécessiter des millions de dollars de coûts de formation, Open-Sora2.0 n'a nécessité qu'environ 200 000 $. Malgré cette réduction drastique des coûts, les tests montrent que la qualité de sa sortie est comparable à celle de systèmes commerciaux établis tels que Runway Gen-3Alpha et HunyuanVideo. Le système a été entraîné à l'aide de 224 GPU Nvidia H200.

Légende : « Deux femmes assises sur un canapé beige, dans une pièce chaleureuse et confortable, avec un mur en briques en arrière-plan. Elles discutent joyeusement, souriantes, en trinquant avec du vin rouge dans un plan moyen intime. » | Vidéo : HPC-AI Tech

Open-Sora2.0 atteint son efficacité grâce à un nouveau processus d'entraînement en trois étapes, commençant par des vidéos basse résolution et affinant progressivement la résolution. L'intégration de modèles d'images pré-entraînés comme Flux optimise encore l'utilisation des ressources. Au cœur du système se trouve l'auto-encodeur vidéo DC-AE, qui offre un taux de compression supérieur aux méthodes traditionnelles. Cette innovation se traduit par une vitesse d'entraînement 5,2 fois plus rapide et une vitesse de génération de vidéos plus de dix fois plus rapide. Bien qu'un taux de compression plus élevé entraîne une légère réduction des détails de sortie, il accélère considérablement le processus de création vidéo.

Légende : « Une tomate fait du surf sur une feuille de laitue, descendant une cascade de sauce ranch, les mouvements de surf exagérés et l'effet ondulant lisse mettent en valeur le plaisir de l'animation 3D. » | Vidéo : HPC-AI Tech

Ce système open source peut générer des vidéos à partir de descriptions textuelles et d'une seule image, et permet aux utilisateurs de contrôler l'intensité du mouvement dans les séquences générées grâce à une fonction de notation du mouvement. Les exemples fournis par HPC-AI Tech montrent une variété de scénarios, y compris des dialogues réalistes et des animations fantaisistes.

Cependant, Open-Sora2.0 présente actuellement des limitations en termes de résolution (768x768 pixels) et de durée maximale de la vidéo (5 secondes ou 128 images), inférieures aux capacités de modèles de pointe tels que Sora d'OpenAI. Néanmoins, ses performances dans des domaines clés tels que la qualité visuelle, la précision des invites et le traitement du mouvement se rapprochent des normes commerciales. Il est à noter que le score VBench d'Open-Sora2.0 n'est désormais inférieur que de 0,69 % à celui de Sora d'OpenAI, une amélioration significative par rapport à l'écart de 4,52 % de la version précédente.

Légende : « Un groupe de champignons anthropomorphiques organisent une fête disco dans une forêt magique sombre, avec des néons scintillants et des mouvements de danse exagérés, leurs textures lisses et leurs surfaces réfléchissantes soulignent l'aspect comique 3D. » | Vidéo : HPC-AI Tech

La stratégie rentable d'Open-Sora2.0 fait écho au « moment Deepseek » des modèles linguistiques, où des méthodes d'entraînement améliorées ont permis aux systèmes open source d'atteindre des performances de niveau commercial à un coût bien inférieur à celui des systèmes commerciaux. Cette évolution pourrait exercer une pression à la baisse sur les prix dans le domaine de l'IA vidéo, qui est actuellement caractérisé par des coûts de calcul élevés et une facturation à la seconde.

QQ20250320-091850.png

Comparaison des coûts de formation : Open-Sora2.0 nécessite environ 200 000 $, tandis que Movie Gen nécessite 2,5 millions de dollars et Step-Video-T2V 1 million de dollars. | Image : HPC-AI Tech

Malgré cette avancée, l'écart de performance entre l'IA vidéo open source et commerciale reste supérieur à celui des modèles linguistiques, soulignant les défis technologiques persistants dans ce domaine. Open-Sora2.0 est désormais disponible en open source sur GitHub.