Bildsynthese ist ein wichtiger Forschungsbereich im Computer Vision. Forscher haben ein neues Bildsynthesemodell namens LCM vorgestellt, das hochauflösende Bilder mit wenigen Inferenzschritten generieren kann. LCM wird aus einem vorab trainierten latenten Diffusionsmodell (LDM) extrahiert und kann die Lösung der probabilistischen Fluss-ODE im latenten Raum direkt vorhersagen. Dies reduziert die Anzahl der Iterationen und den Rechenaufwand.
Die Arbeit beschreibt außerdem eine neue Feinabstimmungsmethode namens LCF, mit der das vortrainierte LCM auf benutzerdefinierten Bilddatensätzen feinabgestimmt werden kann. LCM erreicht state-of-the-art Ergebnisse bei der Text-zu-Bild-Generierung und zeichnet sich durch Schnelligkeit, hohe Genauigkeit, geringe Verzerrungen und niedriges Rauschen aus.