Textgesteuerte Stilübertragung ist eine wichtige Aufgabe im Bereich der Bildsynthese, die darauf abzielt, den Stil eines Referenzbildes mit dem Inhalt zu verschmelzen, der in einer textuellen Aufforderung beschrieben wird. Kürzlich erzielten Text-zu-Bild-Generierungsmodelle bemerkenswerte Fortschritte und ermöglichen eine feinere Stilübertragung bei gleichzeitiger Erhaltung einer hohen Genauigkeit des Inhalts. Diese Technologie hat einen immensen praktischen Wert in Bereichen wie digitaler Malerei, Werbung und Spieldesign.

image.png

Bestehende Stilübertragungstechniken weisen jedoch einige Mängel auf. Die größten Herausforderungen sind:

Überanpassung des Stils: Aktuelle Modelle tendieren dazu, alle Elemente des Referenzbildes zu kopieren, was dazu führt, dass das generierte Bild zu stark den Merkmalen des Referenzbildes ähnelt und die ästhetische Flexibilität und Anpassungsfähigkeit des generierten Bildes einschränkt.

Ungenaue Textausrichtung: Das Modell kann die dominierenden Farben oder Muster des Referenzbildes priorisieren, selbst wenn diese Elemente den Anweisungen in der textuellen Aufforderung widersprechen.

Generierte Artefakte: Die Stilübertragung kann unnötige Artefakte einführen, z. B. sich wiederholende Muster (wie Schachbrettmuster), die das Gesamtlayout des Bildes beeinträchtigen.

image.png

Um diese Probleme zu lösen, schlagen die Forscher drei komplementäre Strategien vor:

AdaIN-basierte crossmodale Fusion: Mit dem **Adaptive Instance Normalization (AdaIN)**-Mechanismus werden die Merkmale des Stilbildes in die Textmerkmale integriert und anschließend mit den Bildmerkmalen fusioniert. Diese adaptive Fusion erzeugt ein kohärenteres Führungsmerkmal, das die Stilmerkmale harmonischer mit den textbasierten Anweisungen ausrichtet. AdaIN integriert den Stil effektiv in den Inhalt, indem es die Inhaltsmerkmale anpasst, um die Stilstatistiken widerzuspiegeln, während gleichzeitig die Konsistenz zwischen Inhalt und Textbeschreibung erhalten bleibt.

Stilbasierte klassifikatorfreie Führung (SCFG): Entwicklung einer stilbasierten Führungsmethode, die sich auf den Zielstil konzentriert und unnötige Stilmerkmale reduziert. Durch die Verwendung eines layoutgesteuerten Generierungsmodells (z. B. ControlNet) wird ein „negatives“ Bild ohne den Zielstil generiert. Dieses negative Bild wirkt ähnlich wie ein „leerer“ Hinweis in Diffusionsmodellen, sodass die Führung sich vollständig auf die Zielelemente des Stils konzentrieren kann.

Layoutstabilisierung mit einem Lehrermodell: Einführung eines Lehrermodells in den frühen Phasen der Generierung. Dieses Lehrermodell basiert auf dem ursprünglichen Text-zu-Bild-Modell, führt gleichzeitig mit dem Stilmodell eine Entrauschungsgenerierung mit derselben textuellen Aufforderung durch und teilt in jedem Schritt seine räumliche Aufmerksamkeitkarte. Diese Methode gewährleistet eine stabile und konsistente räumliche Verteilung und reduziert effektiv Probleme wie Schachbrettmuster-Artefakte. Darüber hinaus wird ein konsistentes räumliches Layout für dieselbe textuelle Aufforderung bei verschiedenen Stilreferenzbildern erreicht.

Die Forscher haben die Wirksamkeit dieser Methoden durch umfangreiche Experimente bestätigt. Die Ergebnisse zeigen, dass die Methode die Qualität der Stilübertragung von generierten Bildern deutlich verbessert und die Konsistenz mit der textuellen Aufforderung beibehält. Noch wichtiger ist, dass die Methode in bestehende Stilübertragungsrahmen integriert werden kann, ohne dass ein Feintuning erforderlich ist.

Die Forscher stellten durch Experimente fest, dass Instabilitäten im Cross-Attention-Mechanismus zum Auftreten von Artefakten führen können. Der Self-Attention-Mechanismus spielt eine Schlüsselrolle bei der Erhaltung des Layouts und der räumlichen Struktur des Bildes. Dieser Mechanismus stabilisiert den Generierungsprozess durch Erfassung höherer räumlicher Beziehungen. Durch selektives Ersetzen bestimmter Self-Attention-Maps im stilisierten Bild können die räumlichen Beziehungen der Schlüsselmerkmale im Bild beibehalten werden, um sicherzustellen, dass das Kernlayout während des gesamten Entrauschungsprozesses konsistent bleibt.

Darüber hinaus löst die stilbasierte klassifikatorfreie Führung (SCFG) effektiv das Problem der Stilmehrdeutigkeit. Sie kann gezielt die gewünschten Stilelemente hervorheben und gleichzeitig irrelevante oder widersprüchliche Merkmale herausfiltern. Durch die Erzeugung eines negativen Stilbildes mit einem layoutgesteuerten Modell kann sich das Modell auf die Übertragung der gewünschten Stilkomponenten konzentrieren und so das Risiko einer Überanpassung an irrelevante Stilkomponenten verringern.

Die Forscher führten auch Ablationsexperimente durch, um den Einfluss jeder Komponente zu bewerten. Die Ergebnisse zeigen, dass sowohl die AdaIN-basierte crossmodale Fusion als auch das Lehrermodell die Genauigkeit der Textausrichtung deutlich verbessern und sich komplementär ergänzen.

Zusammenfassend lässt sich sagen, dass die in dieser Studie vorgeschlagene Methode die in bestehenden textgesteuerten Stilübertragungstechniken vorhandenen Probleme der Überanpassung des Stils und der Instabilität des Layouts effektiv mindert und so eine qualitativ hochwertigere Bilderzeugung ermöglicht. Sie bietet eine vielseitige und leistungsstarke Lösung für Text-zu-Bild-Synthese-Aufgaben.

论文地址:https://arxiv.org/pdf/2412.08503