Das von ByteDance in Zusammenarbeit mit Forschungsteams der Universitäten in China und Singapur entwickelte neue KI-Bildbearbeitungssystem PhotoDoodle definiert unser Verständnis von Bildgestaltung neu. Diese innovative Technologie, basierend auf dem Flux.1-Modell, lernt aus wenigen Beispielen Kunststile und führt präzise spezifische Bearbeitungsanweisungen aus, wodurch völlig neue Möglichkeiten für kreative Ausdrucksformen geschaffen werden.

Basierend auf Flux.1

Das Herzstück von PhotoDoodle ist das vom Forschungsteam entwickelte OmniEditor-System, das die LoRA-Technologie (Low-Rank Adaptation) geschickt nutzt, um das von dem deutschen Startup Black Forest Labs entwickelte Flux.1-Bildgenerierungsmodell zu verbessern. Diese Methode erfordert keine vollständige Umgestaltung der ursprünglichen Modellgewichte, sondern ermöglicht durch Hinzufügen kleiner, spezialisierter Matrizen Anpassungen von kleinen Details bis hin zu vollständigen Stiländerungen.

Anschließend trainierten die Forscher OmniEditor mit einer Variante namens EditLoRA, um einzigartige Kunststile zu replizieren. Durch die Zusammenarbeit mit Künstlern und die Verwendung ausgewählter Bildpaare konnte das System die Feinheiten jedes Kunststils erlernen.

QQ20250226-092429.png

PhotoDoodle fügt dem Originalbild interessante Elemente wie Monster, magische Effekte und dekorative Illustrationen hinzu, während die ursprüngliche Bildkomposition erhalten bleibt. | Bild: Huang et al.

„Positionskodierungs-Klonen“: Harmonisches Gesamtbild

Die bemerkenswerteste Innovation von PhotoDoodle ist die Technologie des „Positionskodierungs-Klonens“. Diese Technologie ermöglicht es der KI, sich die genaue Position jedes Pixels im Originalbild zu merken, wodurch die Bildkomposition beim Hinzufügen neuer Elemente erhalten bleibt und sichergestellt wird, dass die neuen Elemente natürlich in den Hintergrund integriert werden.

Dies löst einen entscheidenden Schwachpunkt traditioneller KI-Bildbearbeitungssysteme: Entweder wird der gesamte Bildstil verändert oder nur lokale Bereiche können bearbeitet werden. Das Einbringen neuer dekorativer Elemente bei gleichzeitiger Beibehaltung der ursprünglichen Perspektive und des Hintergrunds ist schwierig. PhotoDoodle erreicht diesen Durchbruch ohne zusätzliches Parametertraining und erhöht so die Effizienz erheblich.

QQ20250226-092411.png

PhotoDoodle verwandelt alltägliche Fotos in verschiedene Kunststile – von niedlichen Cartoon-Monstern bis hin zu handgezeichneten Linien und Farbeffekten. | Bild: Huang et al.

Ausblick: Einzelbildtraining

In praktischen Tests bewältigte PhotoDoodle mühelos komplexe Anweisungen, von „die Katze etwas weißer machen“ bis hin zu „ein pinkfarbenes Monster hinzufügen, das auf einem Gebäude klettert“. Im Vergleich zu bestehenden Technologien zeigt es in Benchmarks wie der Ähnlichkeit von Bild und Textbeschreibung eine überragende Leistung, sowohl bei gezielten Bearbeitungen als auch bei globalen Bildänderungen.

QQ20250226-092421.png

Ein Vergleich von PhotoDoodle mit bestehenden KI-Bildbearbeitungssystemen zeigt deutlich die Unterschiede in der Qualität der Ausführung spezifischer Anweisungen. | Bild: Huang et al.

Derzeit benötigt PhotoDoodle Dutzende von Bildpaaren und Tausende von Trainingsschritten, um einen neuen Stil zu erlernen. Das Forschungsteam konzentriert sich nun auf effizientere Einzelbildtrainingsmethoden und hat einen Datensatz mit sechs verschiedenen Kunststilen und über 300 Bildpaaren veröffentlicht. Der zugehörige Code wurde auf GitHub Open Source bereitgestellt und bietet eine solide Grundlage für zukünftige Forschung.

Adresse: https://github.com/showlab/PhotoDoodle