Die Generierung hochwertiger, zeitlich kontinuierlicher Videos erfordert erhebliche Rechenressourcen, insbesondere bei längeren Zeiträumen. Die neuesten Diffusions-Transformer-Modelle (DiTs) haben zwar bemerkenswerte Fortschritte in der Videogenerierung erzielt, doch ihre Abhängigkeit von größeren Modellen und komplexeren Aufmerksamkeitsmechanismen führt zu langsameren Inferenzzeiten und verschärft dieses Problem.
Um dieses Problem zu lösen, haben die Forscher von Meta AI eine trainingsfreie Methode namens AdaCache entwickelt, um Video-DiTs zu beschleunigen. Das Kernprinzip von AdaCache basiert auf der Erkenntnis, dass „nicht alle Videos gleich sind“. Das bedeutet, dass einige Videos im Vergleich zu anderen weniger Entrauschungsschritte benötigen, um eine akzeptable Qualität zu erreichen. Daher speichert die Methode nicht nur die Berechnungsergebnisse während des Diffusionsprozesses im Cache, sondern generiert auch für jedes Video eine maßgeschneiderte Cache-Strategie, um den Kompromiss zwischen Qualität und Latenz optimal zu gestalten.
Die Forscher führten außerdem ein Bewegungsregularisierungsschema (MoReg) ein, das die Videoinformationen in AdaCache nutzt, um die Ressourcenallokation basierend auf dem Bewegungsgehalt zu steuern. Da Videos mit hochfrequenten Texturen und umfangreichen Bewegungsinhalten mehr Diffusionsschritte benötigen, um eine akzeptable Qualität zu erreichen, kann MoReg die Rechenressourcen besser verteilen.
Die experimentellen Ergebnisse zeigen, dass AdaCache die Inferenzgeschwindigkeit deutlich verbessern kann (z. B. eine bis zu 4,7-fache Beschleunigung bei der Generierung von Open-Sora-720p-2s-Videos), ohne die Generierungsqualität zu beeinträchtigen. Darüber hinaus zeichnet sich AdaCache durch eine gute Generalisierbarkeit aus und kann auf verschiedene Video-DiT-Modelle wie Open-Sora, Open-Sora-Plan und Latte angewendet werden. Im Vergleich zu anderen trainingsfreien Beschleunigungsmethoden (z. B. ∆-DiT, T-GATE und PAB) bietet AdaCache sowohl in Bezug auf Geschwindigkeit als auch Qualität deutliche Vorteile.
Benutzerstudien zeigen, dass Benutzer die von AdaCache generierten Videos im Vergleich zu anderen Methoden bevorzugen und deren Qualität als vergleichbar mit dem Basismodell einstufen. Diese Studie bestätigt die Effektivität von AdaCache und leistet einen wichtigen Beitrag zum Bereich der effizienten Videogenerierung. Meta AI ist überzeugt, dass AdaCache breite Anwendung finden und die Verbreitung der Generierung von hochauflösenden Langzeitvideos fördern wird.
Artikel: https://arxiv.org/abs/2411.02397
Projektseite:
https://adacache-dit.github.io/
GitHub: