Forscher der National University of Singapore und der Purdue University haben kürzlich die PAB-Technologie entwickelt und damit die Echtzeitverarbeitung von videobasierten Diffusionstransformationen ermöglicht.

Produktzugang:https://top.aibase.com/tool/pab

Diese Technologie basiert auf dem ersten Versuch eines videogenerierenden Modells mit Diffusion Transformer (DiT). Durch die Reduzierung redundanter Aufmerksamkeitsberechnungen wird eine Generierungsgeschwindigkeit von bis zu 21,6 Bildern pro Sekunde erreicht – eine Beschleunigung um das 10,6-fache. Dabei wird die Qualität nicht beeinträchtigt und die Technologie ist mit verschiedenen beliebten DiT-Videogenerierungsmodellen kompatibel, darunter Open-Sora, Open-Sora-Plan und Latte. PAB ist eine trainingsfreie Methode und ermöglicht zukünftigen DiT-Videogenerierungsmodellen Echtzeitgenerierung. PAB benötigt kein Training und kann zukünftigen videobasierten Diffusionstransformationsmodellen Echtzeitverarbeitung ermöglichen.

image.png

Wichtige Funktionsmerkmale:

  • PAB-Aufmerksamkeitsübertragung erhöht die Geschwindigkeit der Videogenerierung durch Reduzierung redundanter Aufmerksamkeitsberechnungen und ermöglicht Echtzeitgenerierung.

  • Basierend auf der Stabilität und den Unterschieden der Aufmerksamkeit setzt PAB unterschiedliche Übertragungsbereiche für verschiedene Aufmerksamkeitstypen ein, um die Rechenleistung zu gewährleisten und gleichzeitig Qualitätsverluste zu minimieren.

  • Durch die Verbesserung der sequenziellen Parallelverarbeitungstechnologie reduziert PAB den Kommunikationsaufwand zwischen mehreren GPUs und erhöht so die Geschwindigkeit und Effizienz der Videogenerierung weiter.

Die Forscher stellten fest, dass der Aufmerksamkeitsmechanismus in videobasierten Diffusionstransformationsmodellen deutliche Unterschiede zwischen den Zeitschritten aufweist. Basierend auf dieser Erkenntnis wurde PAB entwickelt, um unnötige Aufmerksamkeitsberechnungen zu reduzieren. In stabilen Zwischenabschnitten überträgt PAB die Aufmerksamkeit eines Diffusionsschritts auf mehrere nachfolgende Schritte, wodurch die Rechenkosten deutlich reduziert werden. Um die Berechnungseffizienz zu steigern und Qualitätsverluste zu minimieren, werden für verschiedene Aufmerksamkeitstypen unterschiedliche Übertragungsbereiche verwendet.

Um die Videogenerierungsgeschwindigkeit weiter zu erhöhen, haben die Forscher die parallele Verarbeitungsmethode basierend auf dynamischer sequenzieller Parallelität (DSP) verbessert. Durch die Übertragung der zeitlichen Aufmerksamkeit wurde der Großteil des Kommunikationsaufwands eliminiert, was zu einer Reduzierung des Kommunikationsaufwands um über 50 % führte und eine effizientere verteilte Inferenzfähigkeit für die Echtzeit-Videogenerierung ermöglicht.

Wichtigste Punkte:

⭐ Die PAB-Technologie ermöglicht Echtzeit-Videogenerierung mit einer um das 10,6-fache beschleunigten Verarbeitungsgeschwindigkeit.

⭐ Durch die Beobachtung der Unterschiede im Aufmerksamkeitsmechanismus von videobasierten Diffusionstransformationsmodellen wurde PAB entwickelt, um unnötige Aufmerksamkeitsberechnungen zu reduzieren.

⭐ Durch die Verbesserung der parallelen Verarbeitungsmethode wurde der Kommunikationsaufwand erheblich reduziert, was eine effizientere verteilte Inferenzfähigkeit für die Echtzeit-Videogenerierung ermöglicht.