Ein Forschungsteam der New York University, des MIT und von Google hat kürzlich einen innovativen Rahmen vorgestellt, der darauf abzielt, den Engpass bei der Rechenzeit von Diffusionsmodellen zu lösen. Diese bahnbrechende Forschung geht über die traditionellen Methoden der einfachen Erhöhung der Denosing-Schritte hinaus und eröffnet neue Wege zur Verbesserung der Leistung von Generierungsmodellen.

Der Rahmen basiert auf zwei Hauptansätzen: der Nutzung von Validatoren zur Rückmeldung und der Implementierung von Algorithmen zur Suche nach optimaleren Rauschkandidaten. Das Forschungsteam nutzte ein vortrainiertes SiT-XL-Modell mit einer Auflösung von 256×256 als Grundlage und führte, bei Beibehaltung von 250 festen Denosing-Schritten, innovative zusätzliche Rechenressourcen für die Suchvorgänge ein.

Für das Validierungssystem wurden zwei Oracle Verifier verwendet: Inception Score (IS) und Fréchet Inception Distance (FID). IS wählt basierend auf dem vortrainierten InceptionV3-Modell die höchste Klassifizierungswahrscheinlichkeit aus, während FID die Minimierung der Unterschiede zu den vorab berechneten ImageNet Inception-Merkmalsstatistiken anstrebt.

QQ20250120-142056.png

Die Ergebnisse zeigen, dass der Rahmen in mehreren Benchmark-Tests hervorragende Leistungen erbringt. Im DrawBench-Test bestätigte die LLM Grader-Bewertung, dass die Suchvalidierungsmethode die Qualität der Stichproben kontinuierlich verbessert. Insbesondere ImageReward und Verifier Ensemble erzielten bei allen Kennzahlen signifikante Fortschritte, was auf ihre präzise Bewertungsgenauigkeit und die hohe Übereinstimmung mit menschlichen Präferenzen zurückzuführen ist.

Diese Forschung bestätigt nicht nur die Effektivität von rechenintensiven Methoden basierend auf der Suche, sondern zeigt auch die inhärenten Verzerrungen verschiedener Validatoren auf und weist den Weg zur Entwicklung spezialisierterer Validierungssysteme für visuelle Generierungsaufgaben. Diese Entdeckung ist von großer Bedeutung für die Verbesserung der Gesamtleistung von KI-Generierungsmodellen.