Google DeepMind und das Massachusetts Institute of Technology (MIT) haben kürzlich eine bedeutende Forschungsleistung veröffentlicht. Das Forschungsteam entwickelte ein neues autoregressives Modell namens „Fluid“, das im Bereich der Text-zu-Bild-Generierung bahnbrechende Fortschritte erzielt hat. Die Leistung des Modells ist nach der Skalierung auf 10,5 Milliarden Parameter herausragend.
Diese Forschung widerlegt die allgemeine Branchenmeinung. Autoregressive Modelle waren zwar im Bereich der Sprachverarbeitung führend, galten aber in der Bildgenerierung bisher als den Diffusionsmodellen wie Stable Diffusion und Google Imagen3 unterlegen. Die Forscher erzielten eine deutliche Verbesserung der Leistung und Skalierbarkeit autoregressiver Modelle durch die innovative Einführung zweier Schlüsselfaktoren: die Verwendung kontinuierlicher Token anstelle diskreter Token und die Einführung einer zufälligen Erzeugungsreihenfolge anstelle einer festen Reihenfolge.
Bei der Bildinformationsverarbeitung bieten kontinuierliche Token klare Vorteile. Traditionelle diskrete Token kodieren Bildbereiche als Codes aus einem begrenzten Vokabular. Dies führt zwangsläufig zu Informationsverlusten, wodurch selbst große Modelle Schwierigkeiten haben, detaillierte Merkmale wie symmetrische Augen präzise zu generieren. Kontinuierliche Token hingegen speichern genauere Informationen und verbessern die Qualität der Bildrekonstruktion deutlich.
Das Forschungsteam hat auch die Bildgenerierungsreihenfolge innovativ gestaltet. Traditionelle autoregressive Modelle generieren Bilder normalerweise in einer festen Reihenfolge von links nach rechts und von oben nach unten. Die Forscher testeten eine zufällige Reihenfolge, die es dem Modell ermöglicht, in jedem Schritt mehrere Pixel an beliebiger Position vorherzusagen. Diese Methode zeichnet sich bei Aufgaben aus, bei denen ein gutes Verständnis der Gesamtbildstruktur erforderlich ist, und erzielte im GenEval-Benchmark, der die Übereinstimmung zwischen Text und generiertem Bild misst, einen deutlichen Vorteil.
Die tatsächliche Leistung des Fluid-Modells bestätigt den Wert der Forschung. Nach der Skalierung auf 10,5 Milliarden Parameter übertraf Fluid bestehende Modelle in mehreren wichtigen Benchmark-Tests. Bemerkenswert ist, dass ein kleines Fluid-Modell mit nur 369 Millionen Parametern den FID-Score (7,23) des Parti-Modells mit 20 Milliarden Parametern auf dem MS-COCO-Datensatz erreichte.
Dieses Forschungsergebnis zeigt, dass autoregressive Modelle wie Fluid wahrscheinlich eine starke Alternative zu Diffusionsmodellen darstellen. Im Gegensatz zu Diffusionsmodellen, die mehrere Vorwärts- und Rückwärtsdurchläufe benötigen, generiert Fluid Bilder mit nur einem einzigen Durchlauf. Dieser Effizienzvorteil wird bei weiterer Skalierung des Modells noch deutlicher.