Kürzlich hat das InstantX-Team zusammen mit Forschungsteams der Nanjing University of Science and Technology, der Beihang-Universität und der Universität Peking ein neues Stiltransfermodell namens CSGO entwickelt, um die Bildgenerierungstechnologie, insbesondere die Kombination von Inhalt und Stil, zu verbessern.
CSGO unterstützt hauptsächlich drei Stiltransfermodi:
1. Inhaltsbild + Stilreferenzbild, um ein Bild mit dem Stil des Inhalts zu synthetisieren. Wie im folgenden Beispiel gezeigt, wird ein Originalbild (z. B. „Bär, Haus“) bereitgestellt, dessen Stil geändert werden soll, und dann ein Stilreferenzbild. Dadurch kann der Stil des Originalbildes in den Stil des Referenzbildes geändert werden.
2. Stilreferenzbild + Textprompt, um ein Bild mit dem Stil des Textinhalts zu synthetisieren. Wie im folgenden Beispiel gezeigt, wird ein Stilreferenzbild und ein Textprompt (z. B. „eine Katze, ein Hund, ein Mann, ein Panda“) bereitgestellt, um ein entsprechendes Bild mit dem Stil des Inhalts zu generieren.
3. Bearbeitung bestimmter Objekte in einem Bild über Text.
Der Kern des CSGO-Modells liegt in seinem einzigartigen Datenaufbauprozess. Das Forschungsteam hat eine Pipeline zur Datengenerierung und -bereinigung entwickelt und einen umfangreichen Datensatz für Stiltransfer namens IMAGStyle erstellt. Dieser Datensatz enthält 210.000 Bild-Triplets und ist eine wichtige Ressource für die Forschung und Erkundung von Bildgenerierungstechnologien in der Wissenschaft.
Das Designkonzept des Modells ist sehr innovativ. CSGO kann während der Bildgenerierung Inhalts- und Stilmerkmale klar unterscheiden. Die Forscher geben an, dass der Vorteil dieses Modells in seiner End-to-End-Trainingsmethode liegt, was bedeutet, dass im Inferenzstadium keine Feinabstimmung mehr erforderlich ist.
Ein weiterer wichtiger Vorteil des CSGO-Modells ist die Beibehaltung der Fähigkeit zur Generierung von Bildern aus Originaltexten, ohne dass UNet trainiert werden muss. Durch diese Innovationen realisiert CSGO bildgesteuerten Stiltransfer, textgesteuerte Stilsynthese und textbearbeitungsgesteuerte Stilsynthese.
Die Ergebnisse der Experimente zeigen, dass CSGO eine hervorragende Leistung erbringt. Die Forscher haben eine Reihe von quantitativen und visualisierten Vergleichsdaten bereitgestellt und einen umfassenden Vergleich mit den neuesten bestehenden Methoden durchgeführt, um die Vorteile von CSGO in Bezug auf die Stilsteuerung zu demonstrieren.
Wichtigste Punkte:
🌟 Das CSGO-Modell hat durch eine innovative Datenaufbaupipeline erfolgreich den IMAGStyle-Datensatz mit 210.000 Bild-Triplets generiert.
🎨 Das Modell realisiert eine klare Trennung von Inhalt und Stil und unterstützt verschiedene Generierungsmethoden, darunter bildgesteuerten und textgesteuerten Stiltransfer.
📊 Die Ergebnisse der Experimente zeigen, dass CSGO in Bezug auf die Stilsteuerung besser abschneidet als bestehende Technologien und ein neues Niveau der Bildgenerierung demonstriert.