Une équipe de recherche conjointe de Kuaishou, de l'Université de Pékin et de l'Université des postes et télécommunications de Pékin a lancé un résultat technologique majeur : le modèle vidéo ultra-haute définition Pyramid-Flow. Ce projet open source a réalisé une percée significative dans le domaine de la génération de vidéos par intelligence artificielle, ouvrant de nouvelles possibilités pour l'industrie.
Le modèle Pyramid-Flow présente des capacités étonnantes. Il suffit d'une entrée textuelle pour générer des vidéos de 10 secondes, avec une résolution de 1280x768 et une fréquence d'images de 24 ips. Que ce soit pour les effets de lumière et d'ombre, la cohérence des mouvements, la qualité d'image globale, la restitution sémantique du texte ou l'harmonie des couleurs, Pyramid-Flow excelle, générant des vidéos époustouflantes.
L'un des points forts de cette technologie réside dans son processus d'entraînement efficace. L'équipe de recherche n'a utilisé qu'un GPU A100 sur un ensemble de données open source pendant 20 700 heures d'entraînement pour obtenir de si excellents résultats. Comparé aux modèles vidéo open source similaires sur le marché, Pyramid-Flow présente des avantages significatifs en termes de consommation d'énergie et d'efficacité de génération, ce qui est une excellente nouvelle pour les petites et moyennes entreprises et les développeurs individuels disposant de ressources limitées.
L'innovation principale de Pyramid-Flow est son algorithme unique de « correspondance de flux pyramidal ». Cette méthode décompose intelligemment le processus complexe de génération de vidéos en plusieurs niveaux de résolution, en commençant par un croquis grossier à basse résolution et en ajoutant progressivement des détails pour aboutir à une vidéo fine à haute résolution. Cette approche par étapes réduit considérablement les besoins en calcul et améliore la flexibilité et la contrôlabilité du processus de génération.
De plus, l'algorithme intègre un cadre de génération vidéo autorégressif et un mécanisme d'attention causale par blocs, améliorant encore la qualité et la cohérence des vidéos. Ces innovations permettent à Pyramid-Flow de générer un contenu vidéo époustouflant, des scènes nocturnes avec des feux d'artifice aux rues de Tokyo sous la neige, des images en noir et blanc sur les quais de Seine aux scènes de tsunami dynamiques ; chaque image est réaliste.
L'open source de Pyramid-Flow stimule non seulement le développement de la technologie de génération de vidéos par IA, mais injecte également une nouvelle vitalité dans l'industrie créative. Que ce soit pour la réalisation de films, la création publicitaire ou la création personnelle, cette technologie offre aux créateurs un outil puissant.
Adresse du projet : https://github.com/jy0205/Pyramid-Flow
Adresse d'essai en ligne : https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow