Récemment, Kuaishou, en collaboration avec des équipes de recherche de l'Université de Pékin et de l'Université des Postes et Télécommunications de Pékin, a publié en open source un modèle de génération de vidéos ultra-haute définition appelé Pyramid-Flow.
Ce modèle est capable de générer des vidéos d'une durée maximale de 10 secondes, avec une résolution de 1280x768 et 24 images par seconde, à partir d'une description textuelle. La qualité est remarquable, avec d'excellents effets de lumière et d'ombre, une cohérence des mouvements et une qualité vidéo globale impressionnante.
Le fonctionnement de Pyramid Flow diffère des modèles de diffusion vidéo existants. Ces derniers fonctionnent généralement en pleine résolution, ce qui, bien que produisant des résultats de haute qualité, consomme d'énormes ressources de calcul. Pyramid Flow, quant à lui, utilise la flexibilité de l'appariement de flux, permettant une interpolation entre différentes résolutions et niveaux de bruit, pour une génération et une décompression vidéo plus efficaces.
Tout cela est optimisé grâce à un cadre unique appelé DiT, réduisant considérablement le temps d'entraînement. Pyramid-Flow, entraîné sur un GPU A100 pendant seulement 20 700 heures, présente une consommation d'énergie et une efficacité bien supérieures à celles des modèles concurrents. Ceci représente un atout considérable pour les petites et moyennes entreprises et les développeurs individuels ne disposant pas de capacités de calcul importantes.
L'innovation de Pyramid-Flow réside dans l'utilisation d'une technique appelée appariement de flux pyramidal. Cette méthode décompose la génération vidéo en plusieurs étapes à différentes résolutions, en commençant par la création d'une ébauche basse résolution, puis en augmentant progressivement la résolution. Cette conception réduit la charge de calcul tout en améliorant la flexibilité de la génération. Chaque étape évolue à partir d'une représentation bruitée pixélisée jusqu'à devenir nette. Pour assurer la continuité entre les étapes, l'algorithme réintroduit du bruit lors des transitions.
De plus, le modèle utilise un cadre autorégressif et un mécanisme d'attention causale par blocs, permettant à chaque image d'être générée en fonction des images précédentes, garantissant ainsi la cohérence et la logique de la vidéo.
Exemple officiel : Vidéo de 10 secondes générée
Exemple officiel : Image générant une vidéo
En termes de performances, Pyramid Flow excelle sur les principales plateformes de comparaison. Comparé à certains modèles commerciaux, bien qu'il n'utilise que des données vidéo publiques, il n'a rien à envier en termes de qualité et de fluidité. De plus, une enquête auprès des utilisateurs a révélé une satisfaction générale quant aux résultats de génération de Pyramid Flow, notamment en ce qui concerne la fluidité des mouvements dans les vidéos.
Que vous soyez un créateur souhaitant générer du contenu vidéo captivant ou un chercheur explorant de nouvelles technologies, Pyramid Flow offre une option efficace et conviviale.
Accès au projet : https://huggingface.co/rain1011/pyramid-flow-sd3
Points clés :
🌟 Cette technologie permet de générer des vidéos de 768p de résolution, 24 images par seconde et d'une durée de 10 secondes, et prend en charge la génération d'image à vidéo.
💡 L'utilisation de l'appariement de flux permet une interpolation entre différentes résolutions et niveaux de bruit, améliorant ainsi l'efficacité du calcul.
🚀 Excellent rendement sur plusieurs plateformes, les utilisateurs apprécient généralement les résultats de génération vidéo.