Recientemente, investigadores de la Universidad Nacional de Singapur y la Universidad Purdue lograron desarrollar la tecnología PAB, permitiendo el procesamiento en tiempo real de la generación de video basada en la transformación difusiva.

Acceso al producto:https://top.aibase.com/tool/pab

Esta tecnología representa el primer intento de un modelo de generación de video basado en Diffusion Transformer (DiT). Al reducir el cálculo de atención redundante, se logró una velocidad de generación de hasta 21.6 fotogramas por segundo, una aceleración de 10.6 veces, sin sacrificar la calidad y siendo aplicable a varios modelos populares de generación de video DiT, incluyendo Open-Sora, Open-Sora-Plan y Latte. PAB es un método que no requiere entrenamiento y puede otorgar la capacidad de generación en tiempo real a futuros modelos de generación de video DiT. PAB, sin necesidad de entrenamiento, permite el procesamiento en tiempo real a cualquier modelo futuro de generación de video basado en transformación difusiva.

image.png

Características importantes:

  • La difusión de la atención de PAB, al reducir el cálculo de atención redundante, mejora significativamente la velocidad de generación de video, logrando la generación en tiempo real.

  • Según la estabilidad y la diferencia de la atención, PAB establece diferentes rangos de difusión para diferentes tipos de atención, minimizando así la pérdida de calidad mientras se garantiza la eficiencia del cálculo.

  • Mediante la mejora de la tecnología de procesamiento paralelo secuencial, PAB reduce los gastos de comunicación entre múltiples GPU, mejorando aún más la velocidad y la eficiencia de la generación de video.

Los investigadores descubrieron que el mecanismo de atención en los modelos de transformación difusiva de video presenta diferencias significativas entre los pasos de tiempo. Basándose en este descubrimiento, propusieron PAB para reducir el cálculo de atención innecesario. En la parte intermedia estable, PAB transmite la salida de atención de un paso de difusión a varios pasos posteriores, reduciendo así significativamente el costo computacional. Además, para un cálculo más eficiente y una pérdida de calidad mínima, se establecieron diferentes rangos de difusión para diferentes tipos de atención.

Para mejorar aún más la velocidad de generación de video, los investigadores mejoraron el método de procesamiento paralelo basado en el paralelismo secuencial dinámico (DSP). Al transmitir la atención temporal, se eliminó la mayor parte del gasto de comunicación, logrando una reducción de más del 50% en los gastos de comunicación, proporcionando una capacidad de inferencia distribuida más eficiente para la generación de video en tiempo real.

Puntos clave:

⭐ La tecnología PAB permite la generación de video en tiempo real, acelerando la velocidad de procesamiento 10.6 veces.

⭐ Al observar las diferencias en el mecanismo de atención de los modelos de transformación difusiva de video, se propuso PAB para reducir el cálculo de atención innecesario.

⭐ Mediante la mejora del método de procesamiento paralelo, se redujo considerablemente el gasto de comunicación, proporcionando una capacidad de inferencia distribuida más eficiente para la generación de video en tiempo real.