Im Bereich der Bilderzeugung stellen hochauflösende und realistische Bilder eine große Herausforderung dar, insbesondere bei der Text-zu-Bild-Synthese. Traditionelle generative Verfahren basieren meist auf Diffusionsmodellen und autoregressiven Transformations-(VAR)-Frameworks.

Diese Modelle erzeugen zwar qualitativ hochwertige Bilder, benötigen aber enorme Rechenleistung, was ihre Flexibilität in Echtzeitanwendungen einschränkt. Gleichzeitig neigen VAR-Modelle bei der Verarbeitung diskreter Token zu kumulativen Fehlern, was zu Verlusten an Bilddetails und damit zu einer geringeren Realitätsnähe führt.

image.png

Um diese Nachteile zu überwinden, hat das Forschungsteam von ByteDance das neue Framework „Infinity“ vorgestellt, das die Effizienz und Qualität der Text-zu-Bild-Synthese verbessern soll.

Infinity verwendet Bit-Level-Token anstelle der herkömmlichen Index-Level-Token und ermöglicht so eine feinere Darstellung. Dies reduziert Quantisierungsfehler deutlich und verbessert die Realitätsnähe der erzeugten Bilder. Darüber hinaus nutzt das Framework einen „Infinite Vocabulary Classifier“ (IVC), der den Token-Wortschatz auf 2^64 erweitert und so den Speicher- und Rechenbedarf erheblich reduziert.

image.png

Die Infinity-Architektur besteht hauptsächlich aus drei Teilen: einem Bit-Level-Multiskalen-Quantisierungstokenizer, der Bildmerkmale in binäre Token umwandelt, um den Rechenaufwand zu minimieren; einem auf Transformatoren basierenden autoregressiven Modell, das basierend auf Textaufforderungen und vorherigen Ausgaben Residuen vorhersagt; und einem Selbstkorrekturmechanismus, der während des Trainings zufällige Bit-Flip-Fehler einführt, um die Robustheit des Modells gegenüber Fehlern zu verbessern. Das Forschungsteam nutzte große Datensätze wie LAION und OpenImages für das Training und erzielte durch schrittweise Erhöhung der Bildauflösung von 256×256 auf 1024×1024 signifikante Fortschritte.

Die Evaluierung zeigt, dass Infinity in wichtigen Kennzahlen hervorragende Leistungen erbringt. Der GenEval-Score beträgt 0., der Fréchet Inception Distance (FID) wurde auf 3.48 gesenkt, was die Verbesserungen in Geschwindigkeit und Qualität belegt. Infinity kann innerhalb von 0,8 Sekunden ein hochauflösendes Bild mit 1024×1024 Pixeln erzeugen und zeigt damit seine Effizienz und Zuverlässigkeit. Die vom System erzeugten Bilder sind nicht nur visuell realistisch und detailreich, sondern reagieren auch präzise auf komplexe Textanweisungen und erhalten hohe Bewertungen in Bezug auf die menschlichen Präferenzen.

Die Einführung von Infinity markiert einen neuen Meilenstein im Bereich der hochauflösenden Text-zu-Bild-Synthese. Durch sein innovatives Design werden langjährige Probleme der Skalierbarkeit und Detailqualität gelöst und die Entwicklung von generativer KI vorangetrieben.

Paper: https://arxiv.org/abs/2412.04431

Highlights:

🌟 **Innovatives Framework Infinity:** ByteDance stellt das Infinity-Framework vor, das durch Bit-Level-Tokenisierung und einen Infinite Vocabulary Classifier die Effizienz der Erzeugung hochauflösender Bilder deutlich verbessert.

⚡ **Herausragende Leistung:** Infinity übertrifft bestehende Modelle in wichtigen Bewertungsmetriken und erzeugt innerhalb von 0,8 Sekunden qualitativ hochwertige Bilder mit 1024×1024 Pixeln.

🖼️ **Realismus, Details und Reaktionsfähigkeit:** Die erzeugten Bilder sind nicht nur visuell realistisch, sondern reagieren auch präzise auf komplexe Textanweisungen und erhalten hohe Bewertungen in Bezug auf die menschlichen Präferenzen.