KI-gestützte Text-zu-Bild-Generierungsmodelle (T2I), wie DALL-E 3 und Adobe Firefly 3, zeigen beeindruckende Ergebnisse und ein enormes Potenzial für reale Anwendungen. Diese Modelle verfügen jedoch oft über Milliarden von Parametern und benötigen extrem viel Speicher, was ihren Einsatz auf ressourcenbeschränkten Plattformen wie Mobilgeräten erheblich erschwert.

Um dieses Problem zu lösen, haben Forscher von ByteDance und POSTECH Techniken zur extrem niedrig-bittigen Quantisierung von T2I-Modellen untersucht. Das Modell FLUX.1-dev wurde aufgrund seiner öffentlichen Verfügbarkeit und seiner hervorragenden Leistung als Forschungsobjekt ausgewählt.

Die Forscher haben die Gewichte des visuellen Transformators im FLUX-Modell mithilfe einer 1,58-Bit-Quantisierungsmethode komprimiert, die nur die drei Werte {-1, 0, +1} verwendet. Diese Quantisierung benötigt keinen Zugriff auf Bilddaten und basiert allein auf der Selbstüberwachung des FLUX.1-dev-Modells. Im Gegensatz zu BitNet b1.58 wird hier kein großes Sprachmodell von Grund auf trainiert, sondern eine nachträgliche Quantisierungslösung für T2I-Modelle angewendet.

image.png

Durch diese Methode wurde der Speicherbedarf des Modells um das 7,7-fache reduziert, da die 1,58-Bit-Gewichte mit 2-Bit-vorzeichenbehafteten Ganzzahlen gespeichert werden, was einer Komprimierung von 16-Bit-Genauigkeit entspricht. Zur weiteren Steigerung der Inferenz-Effizienz wurde ein speziell für niedrig-bittige Berechnungen optimierter Kernel entwickelt. Dieser Kernel reduziert den Speicherverbrauch bei der Inferenz um über das 5,1-fache und verbessert die Inferenz-Latenz.

Bewertungen in den Benchmarks GenEval und T2I Compbench zeigen, dass 1,58-Bit-FLUX bei vergleichbarer Generierungsqualität im Vergleich zum Modell mit voller Genauigkeit eine deutlich höhere Rechenleistung aufweist.

Konkret wurden 99,5 % der Parameter des visuellen Transformators im FLUX-Modell (insgesamt 11,9 Milliarden) auf 1,58 Bit quantisiert, was den Speicherbedarf erheblich reduziert.

Die Ergebnisse zeigen, dass die Leistung von 1,58-Bit-FLUX auf den Datensätzen T2I CompBench und GenEval mit dem ursprünglichen FLUX-Modell vergleichbar ist. Die Geschwindigkeitsverbesserung von 1,58-Bit-FLUX ist besonders auf leistungsschwächeren GPUs (wie L20 und A10) deutlich.

image.png

Zusammenfassend lässt sich sagen, dass 1,58-Bit-FLUX einen wichtigen Schritt zur praktischen Bereitstellung hochwertiger T2I-Modelle auf Geräten mit begrenztem Speicher und Latenz darstellt.

Obwohl 1,58-Bit-FLUX noch einige Einschränkungen in Bezug auf Geschwindigkeitsverbesserungen und die Wiedergabe von Details in hochauflösenden Bildern aufweist, bietet sein enormes Potenzial zur Steigerung der Modelleffizienz und zur Reduzierung des Ressourcenverbrauchs vielversprechende Ansätze für zukünftige Forschung.

Zusammenfassung der wichtigsten Verbesserungen:

Modellkomprimierung: Der Speicherbedarf des Modells wurde um das 7,7-fache reduziert.

Speicheroptimierung: Der Speicherverbrauch bei der Inferenz wurde um mehr als das 5,1-fache reduziert.

Leistungserhaltung: 1,58-Bit-FLUX erreicht in den Benchmarks GenEval und T2I Compbench eine vergleichbare Leistung zum Modell mit voller Genauigkeit.

Keine Bilddaten erforderlich: Der Quantisierungsprozess benötigt keinen Zugriff auf Bilddaten und basiert nur auf der Selbstüberwachung des Modells.

Benutzerdefinierter Kernel: Ein für niedrig-bittige Berechnungen optimierter benutzerdefinierter Kernel wurde verwendet, um die Inferenz-Effizienz zu verbessern.

Projektseite: https://chenglin-yang.github.io/1.58bit.flux.github.io/

论文地址: https://arxiv.org/pdf/2412.18653

模型地址: https://huggingface.co/papers/2412.18653