Forscher von Nvidia in Zusammenarbeit mit dem Massachusetts Institute of Technology (MIT) und der Tsinghua-Universität haben einen neuen Text-zu-Bild-Generator namens Sana entwickelt, der hocheffizient Bilder mit einer Auflösung von bis zu 4096 × 4096 Pixel generieren kann.

Sana synthetisiert hochauflösende, qualitativ hochwertige und texttreue Bilder mit extrem hoher Geschwindigkeit – sogar auf der GPU eines Laptops.

image.png

Kernmerkmale von Sana:

Tiefer komprimierter Autoencoder: Im Gegensatz zu herkömmlichen Autoencodern, die Bilder nur um das 8-fache komprimieren, komprimiert der in Sana trainierte Autoencoder Bilder um das 32-fache. Dies reduziert die Anzahl der latenten Tokens effektiv.

Linearer DiT: Sana ersetzt alle herkömmlichen Aufmerksamkeitsmechanismen in DiT durch lineare Aufmerksamkeitsmechanismen. Dies ist bei der Generierung hochauflösender Bilder effizienter, ohne Einbußen bei der Qualität.

Nur-Dekoder-Text-Encoder: Anstelle von T5 verwenden die Forscher das fortschrittlichere und kleinere Nur-Dekoder-Sprachmodell (LLM) Gemma als Text-Encoder. Komplexes menschliches Instruktions- und Kontextlernen wurde implementiert, um die Konsistenz zwischen Bild und Text zu verbessern.

Effizientes Training und Sampling: Sana verwendet Flow-DPM-Solver, um die Sampling-Schritte zu reduzieren, und beschleunigt die Modellkonvergenz durch effizientes Token-Labeling und -Selektion.

image.png

Dank dieser Designentscheidungen ist Sana-0.6B in Bezug auf die Leistung mit großen Diffusionsmodellen wie Flux-12B vergleichbar, ist aber 20-mal kleiner und über 100-mal schneller.

Darüber hinaus kann Sana-0.6B auf einer Laptop-GPU mit 16 GB Speicher eingesetzt werden. Die Generierung von Bildern mit einer Auflösung von 1024 × 1024 Pixel dauert weniger als eine Sekunde. Sana ermöglicht so kostengünstiges Content-Creating.

image.png

Der Hauptvorteil von Sana liegt in seiner Effizienz. Bei der Generierung von 4K-Bildern ist der Durchsatz von Sana-0.6B über 100-mal höher als bei den derzeit fortschrittlichsten Methoden (FLUX), bei 1K-Auflösung 40-mal höher.

Die Forscher haben Sana-0.6B auch quantisiert und auf Edge-Geräten eingesetzt. Auf einem Consumer-Gerät mit RTX-4090-GPU dauert die Generierung von Bildern mit einer Auflösung von 1024 × 1024 Pixel nur 0,37 Sekunden, was eine starke Grundlage für die Echtzeit-Bildgenerierung bietet.

Zukünftig planen die Forscher, auf Basis von Sana einen effizienten Videogenerierungsprozess zu entwickeln. Die Studie weist jedoch auch einige Einschränkungen auf, z. B. die fehlende vollständige Gewährleistung der Sicherheit und Kontrollierbarkeit der generierten Bildinhalte sowie Herausforderungen bei der Wiedergabe von Text, Gesichtern und Händen.

Projektseite: https://nvlabs.github.io/Sana/

Forschungsarbeit: https://arxiv.org/pdf/2410.10629