Récemment, l'équipe de Luocheng Open-Sora a réalisé des progrès révolutionnaires en termes de qualité vidéo texte-vers-vidéo HD 720p et de durée de génération. Non seulement ils ont fait sensation avec une qualité vidéo 720p haute définition et une durée de génération optimisée, mais ils ont également rendu ce bijou open source, suscitant l'enthousiasme de toute la communauté !
Sans exagération, leur projet open source rend la génération vidéo aussi simple que de commander un repas à emporter. Depuis son lancement en mars, il a déjà récolté 17 500 étoiles sur GitHub, un véritable succès !
Adresse open source : https://github.com/hpcaitech/Open-Sora
Open-Sora permet de générer en un clic des vidéos HD 720p de 16 secondes. Qu'il s'agisse de portraits de personnages raffinés, de films de science-fiction époustouflants ou d'animations amusantes et vivantes, avec des effets de zoom fluides, il gère tout avec aisance. D'ailleurs, Lambda Labs, une société d'IA détenue par Nvidia, a même utilisé les poids du modèle Open-Sora pour créer un univers numérique Lego, offrant aux fans de Lego un nouveau terrain d'expression créative.
L'équipe de Luocheng a non seulement publié les poids du modèle en open source, mais a également partagé sa feuille de route technique sur GitHub, permettant à chaque utilisateur de devenir le maître d'un grand modèle vidéo. Ce rapport technique analyse en profondeur le cœur et les points clés de l'entraînement du modèle, de la compression vidéo au réseau de diffusion, en passant par la contrôlabilité. Avec un modèle de génération de diffusion de 1,1 milliard de paramètres, ils ont résolu les points faibles de l'entraînement des modèles vidéo.
Adresse du rapport : https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
L'introduction du réseau de compression vidéo est une méthode similaire à celle de Sora d'OpenAI. Il permet une compression temporelle de 4 fois sans interpolation d'images, permettant de générer des vidéos avec le FPS d'origine. L'équipe a également proposé un réseau de compression vidéo simple (c'est-à-dire un VAE) qui réalise d'abord une compression spatiale de 8x8, puis une compression temporelle de 4 fois.
Le dernier modèle de diffusion de Stable Diffusion 3, grâce à la technique du flux rectifié, améliore la qualité de génération. Les techniques fournies par l'équipe de Luocheng, notamment l'entraînement rectifié et l'échantillonnage des pas de temps Logit-norm, accélèrent la vitesse d'entraînement du modèle et réduisent le temps d'attente de l'inférence.
Le rapport révèle également les détails essentiels de l'entraînement du modèle, y compris le nettoyage des données, les techniques d'optimisation du modèle et la construction d'un système d'évaluation du modèle. Ils fournissent même une application Gradio prête à l'emploi, prenant en charge plusieurs réglages de paramètres.
L'open source de Luocheng Open-Sora brise la boucle fermée et injecte une vitalité nouvelle dans l'innovation et le développement de la génération vidéo texte-vers-vidéo. Les utilisateurs passent du statut de consommateurs de contenu à celui de créateurs, et les entreprises débloquent de nouvelles compétences en matière de développement autonome.