Generar videos de alta calidad y temporalmente coherentes requiere una gran cantidad de recursos computacionales, especialmente para duraciones más largas. Los últimos modelos de difusión Transformer (DiTs) han logrado avances significativos en la generación de video, pero su dependencia de modelos más grandes y mecanismos de atención más complejos ha ralentizado la inferencia, exacerbando este desafío. Para abordar este problema, los investigadores de Meta AI propusieron AdaCache, un método sin entrenamiento para acelerar los videos DiTs.

image.png

La idea central de AdaCache se basa en el hecho de que "no todos los videos son iguales", lo que significa que algunos videos requieren menos pasos de eliminación de ruido para lograr una calidad razonable que otros. Basándose en esto, el método no solo almacena en caché los resultados de los cálculos durante el proceso de difusión, sino que también genera estrategias de caché personalizadas para cada video, optimizando al máximo la compensación entre calidad y latencia.

Los investigadores introdujeron además un esquema de regularización de movimiento (MoReg), que utiliza la información del video en AdaCache para controlar la asignación de recursos computacionales según el contenido de movimiento. Dado que las secuencias de video que contienen texturas de alta frecuencia y una gran cantidad de movimiento requieren más pasos de difusión para lograr una calidad razonable, MoReg puede asignar mejor los recursos computacionales.

image.png

Los resultados experimentales muestran que AdaCache puede mejorar significativamente la velocidad de inferencia (por ejemplo, hasta 4,7 veces más rápido en la generación de videos Open-Sora720p -2s) sin sacrificar la calidad de generación. Además, AdaCache tiene una buena capacidad de generalización y se puede aplicar a diferentes modelos de video DiT, como Open-Sora, Open-Sora-Plan y Latte. En comparación con otros métodos de aceleración sin entrenamiento (como ∆-DiT, T-GATE y PAB), AdaCache presenta ventajas significativas en velocidad y calidad.

Los estudios de usuarios muestran que, en comparación con otros métodos, los usuarios prefieren los videos generados por AdaCache y consideran que su calidad es comparable a la del modelo de referencia. Esta investigación confirma la efectividad de AdaCache y hace una contribución importante al campo de la generación eficiente de video. Meta AI cree que AdaCache puede tener una amplia aplicación e impulsar la popularización de la generación de videos largos de alta fidelidad.

Artículo: https://arxiv.org/abs/2411.02397

Página del proyecto:

https://adacache-dit.github.io/

GitHub:

https://github.com/AdaCache-DiT/AdaCache