Dans le domaine de la génération de vidéos par intelligence artificielle, les modèles de diffusion sont reconnus pour leurs performances exceptionnelles. Cependant, leur nature itérative de débruitage rend le processus de génération long et coûteux en calcul, ce qui constitue un frein majeur à leur adoption généralisée. Récemment, une équipe de chercheurs de l'Université des sciences et technologies de l'aéronautique et de l'astronautique de Beijing, de l'Université de Hong Kong et du Shanghai Artificial Intelligence Laboratory a publié une nouvelle technologie nommée AccVideo. Cette méthode, grâce à une nouvelle technique de distillation efficace et à l'utilisation d'un jeu de données synthétiques, réussit à accélérer la génération de modèles de diffusion vidéo d'un facteur impressionnant de 8,5.
Les modèles de diffusion vidéo existants excellent dans la génération de vidéos de haute qualité, mais leur processus itératif de débruitage nécessite de nombreuses étapes d'inférence. Cela signifie que les utilisateurs doivent attendre longtemps pour obtenir le résultat final, et cela exige également des ressources de calcul importantes, ce qui limite leur utilisation pratique. Face à ce défi, les chercheurs explorent des méthodes pour accélérer les modèles de diffusion, et AccVideo apporte une solution novatrice.
La percée d'AccVideo : données synthétiques et guidage efficace
AccVideo repose sur une méthode de distillation innovante qui utilise intelligemment un jeu de données synthétiques pour accélérer les modèles de diffusion vidéo. L'équipe de recherche a d'abord utilisé un modèle de diffusion vidéo pré-entraîné pour générer plusieurs trajectoires de débruitage efficaces, créant ainsi un jeu de données synthétiques de haute qualité. Contrairement aux méthodes de distillation précédentes, AccVideo évite l'utilisation d'un grand nombre de points de données redondants, améliorant ainsi l'efficacité de la distillation.
Sur cette base, AccVideo a conçu une stratégie de guidage à pas réduit basée sur les trajectoires. Cette stratégie exploite pleinement les points de données clés du jeu de données synthétiques, permettant au modèle « étudiant » d'apprendre le processus de débruitage du modèle « enseignant » (c'est-à-dire le modèle de diffusion vidéo pré-entraîné) en moins d'étapes, ce qui permet une génération vidéo rapide.
Qualité et efficacité : l'entraînement antagoniste améliore la qualité vidéo
Pour exploiter pleinement les informations sur la distribution des données capturées à chaque étape de diffusion du jeu de données synthétiques, AccVideo introduit une stratégie d'entraînement antagoniste. De cette manière, AccVideo aligne efficacement la distribution de sortie du modèle étudiant avec la distribution du jeu de données synthétiques, améliorant ainsi considérablement la qualité des vidéos générées.
Les résultats expérimentaux montrent qu'AccVideo, tout en maintenant des performances comparables au modèle enseignant, a permis une accélération de la génération jusqu'à 8,5 fois. Plus impressionnant encore, AccVideo peut générer des vidéos de 5 secondes, d'une résolution de 720x1280 et d'une fréquence d'images de 24 ips. Comparé aux méthodes d'accélération précédentes, AccVideo présente des avantages significatifs en termes de qualité et de résolution vidéo.
Perspectives d'application : la génération de longues vidéos de haute qualité n'est plus un problème
Les progrès révolutionnaires d'AccVideo annoncent une nouvelle ère pour les technologies de génération de vidéos de haute qualité. Sa capacité de génération efficace, combinée à une excellente qualité et résolution vidéo, lui confère un énorme potentiel d'application dans des domaines tels que la génération de vidéos à partir de texte. Par exemple, les utilisateurs peuvent générer rapidement des vidéos de 5 secondes, riches en détails et en contenu, à partir de descriptions textuelles simples, ouvrant ainsi de nouvelles possibilités de création vidéo.
Les résultats qualitatifs présentés par l'équipe de recherche montrent qu'AccVideo est capable de générer des images de haute qualité, que ce soit une femme à la mode dans les rues animées de Tokyo, des scènes animalières réalistes ou des images de science-fiction imaginatives. Cela démontre sa puissante capacité de génération dans des scénarios complexes et sur des thèmes variés.
La publication d'AccVideo marque une étape importante dans le domaine de la génération vidéo. Son accélération de 8,5 fois et sa sortie vidéo de haute qualité résolvent efficacement les problèmes de lenteur et de coût élevé des modèles de diffusion existants, jetant ainsi les bases d'une création et d'une utilisation de contenu vidéo plus larges et plus pratiques.
Projet : https://top.aibase.com/tool/accvideo