Générer des vidéos de haute qualité et temporelles nécessite des ressources de calcul importantes, surtout pour les longues durées. Les derniers modèles de diffusion Transformer (DiT) ont certes fait des progrès significatifs dans la génération de vidéos, mais leur dépendance à des modèles plus grands et à des mécanismes d'attention plus complexes ralentit le processus d'inférence, aggravant ainsi le défi. Pour résoudre ce problème, les chercheurs de Meta AI ont proposé AdaCache, une méthode sans entraînement pour accélérer les vidéos DiT.

image.png

L'idée centrale d'AdaCache repose sur le fait que « toutes les vidéos ne sont pas identiques », ce qui signifie que certaines vidéos nécessitent moins d'étapes de débruitage que d'autres pour atteindre une qualité raisonnable. Sur cette base, la méthode met en cache non seulement les résultats de calcul pendant le processus de diffusion, mais elle génère également une stratégie de cache personnalisée pour chaque vidéo, afin d'optimiser au maximum le compromis entre qualité et latence.

Les chercheurs ont également introduit un schéma de régularisation du mouvement (MoReg), utilisant les informations vidéo dans AdaCache pour contrôler l'allocation des ressources de calcul en fonction du contenu du mouvement. Comme les séquences vidéo contenant des textures haute fréquence et un contenu de mouvement important nécessitent plus d'étapes de diffusion pour atteindre une qualité raisonnable, MoReg permet une meilleure allocation des ressources de calcul.

image.png

Les résultats expérimentaux montrent qu'AdaCache peut améliorer considérablement la vitesse d'inférence (par exemple, une augmentation de vitesse jusqu'à 4,7 fois pour la génération de vidéos Open-Sora 720p -2s), sans sacrifier la qualité de génération. De plus, AdaCache possède une bonne capacité de généralisation et peut être appliqué à différents modèles de vidéos DiT, tels qu'Open-Sora, Open-Sora-Plan et Latte. Comparé à d'autres méthodes d'accélération sans entraînement (telles que ∆-DiT, T-GATE et PAB), AdaCache présente des avantages significatifs en termes de vitesse et de qualité.

Des études utilisateurs montrent que les utilisateurs préfèrent les vidéos générées par AdaCache par rapport aux autres méthodes, et considèrent leur qualité comme comparable à celle du modèle de référence. Cette étude confirme l'efficacité d'AdaCache et apporte une contribution importante au domaine de la génération vidéo efficace. Meta AI est convaincu qu'AdaCache peut être largement appliqué et promouvoir la généralisation de la génération de longues vidéos haute fidélité.

Article : https://arxiv.org/abs/2411.02397

Page du projet :

https://adacache-dit.github.io/

GitHub :

https://github.com/AdaCache-DiT/AdaCache