Neueste Forschungsergebnisse des Alibaba Tongyi Labs zeigen, dass bestehende Text-zu-Bild-Diffusion-Transformer-Modelle bereits in der Lage sind, mehrere Bilder mit spezifischen Beziehungen zu generieren. Mit wenigen Anpassungen können sie diese Fähigkeit optimal nutzen und hochwertige Bildserien erstellen.

Traditionelle Diffusionsmodelle ähneln eher einem „Auswendiglerner“, der mit riesigen Datenmengen trainiert werden muss, um qualitativ hochwertige Bilder zu erzeugen.

Mit IC-LoRA hingegen verwandeln sie sich in „intelligente Lerner“. Sie benötigen nur wenige Beispiele, um neue Fähigkeiten zu erlernen.

image.png

Das zugrunde liegende Prinzip ist recht einfach: Die Forscher stellten fest, dass bestehende Text-zu-Bild-Diffusionsmodelle bereits über eine gewisse „Kontextlernfähigkeit“ verfügen, die jedoch durch bestimmte Techniken aktiviert werden muss.

In mehreren Experimenten generierten sie direkt mit bestehenden Text-zu-Bild-Modellen mehrere Bilder. Die Ergebnisse zeigten, dass das Modell die Beziehungen zwischen den Bildern tatsächlich versteht und konsistente Bildserien erzeugt. Obwohl noch kleine Mängel vorhanden sind, sind die Ergebnisse bereits beachtlich.

Daher entwickelten sie einen einfachen und effektiven Prozess, um die „Kontextlernfähigkeit“ des Diffusionsmodells zu aktivieren:

  • Mehrere Bilder zu einem großen Bild zusammenfügen, anstatt wie bisher Token aneinanderzureihen. Dies ermöglicht die direkte Verarbeitung der Bilder im Diffusionsmodell, anstatt abstrakter Token.

  • Die Beschreibungen der einzelnen Bilder zu einem langen Prompt zusammenfassen. So kann das Modell die Informationen mehrerer Bilder gleichzeitig verarbeiten und deren Beziehungen verstehen.

Beispiel:

image.png

Prompt: „In dieser dreiteiligen Abenteuerserie entdeckt [IMAGE1] Ethan, ein verwegener Archäologe mit rauer Erscheinung, auf einer sonnigen Ausgrabungsstätte in der Wüste eine antike Karte. Seine Begeisterung ist deutlich sichtbar, als er den Sand abwischt. [IMAGE2] Der Übergang führt in eine pulsierende ausländische Stadt mit einem geschäftigen Markt, wo Ethan mit lokalen Händlern verhandelt und Vorräte für seine Mission sammelt. [IMAGE3] Schließlich durchquert Ethan einen dichten, nebelverhangenen Dschungel. Hohe Bäume und exotische Wildtiere unterstreichen die Herausforderungen und das Geheimnis seiner Reise.

image.png

Prompt: „In einer inspirierenden Geschichte von Ausdauer sehen wir [IMAGE1] Lena, ein entschlossenes Mädchen, das auf einem kargen Feld Samen sät. Entschlossenheit steht ihr ins Gesicht geschrieben. [IMAGE2] Im Übergang sehen wir sie die Pflanzen pflegen und täglich gießen. Ihre Bemühungen zeigen langsam Wirkung. [IMAGE3] Schließlich endet die Geschichte in einem üppigen, blühenden Garten, in dem Lena stolz vor ihrer Schöpfung steht – ein Symbol für Wachstum und Ausdauer.

  • Das Modell mit wenigen hochwertigen Bildserien feinabzustimmen, anstatt wie bisher mit Hunderttausenden von Bildern im großen Stil zu trainieren. Dies spart Rechenleistung und bewahrt gleichzeitig das vorhandene Wissen und die „Kontextlernfähigkeit“ des Modells.

Das resultierende IC-LoRA-Modell ist sehr einfach und erfordert keine Änderungen am ursprünglichen Text-zu-Bild-Modell. Es müssen lediglich wenige Trainingsdaten an die jeweilige Aufgabe angepasst werden.

Wenn Sie beispielsweise möchten, dass Stable Diffusion Bilder im Comic-Stil generiert, müssen Sie das IC-LoRA-Modell lediglich mit einigen Comic-Bildern trainieren. Es generiert dann mühelos alle gewünschten Comics – ein wahres „Aha-Erlebnis“.

image.png

Prompt: „Dieses Bildpaar zeigt den Übergang von einem realistischen Porträt zu einer verspielten Illustration und fängt Details und künstlerisches Talent ein; [IMAGE1] Auf dem Foto steht eine Frau in einem geschäftigen Markt, trägt einen breitkrempigen Hut und ein fließendes Boho-Kleid und trägt eine Ledertasche über der Schulter; [IMAGE2] Die Illustration übertreibt ihre Accessoires und Merkmale. Das Boho-Kleid ist in lebendigen Mustern und kräftigen Farben dargestellt, während der Hintergrund zu abstrakten Marktständen vereinfacht ist und dem Szenario Lebendigkeit verleiht.

Um IC-LoRA noch leistungsfähiger zu machen, haben die Forscher eine bedingte Bildgenerierungsfunktion hinzugefügt. Einfach ausgedrückt, bedeutet dies, dass neue Bilder auf der Grundlage vorhandener Bilder generiert werden können. So können beispielsweise aus einem Personenfoto Bilder mit verschiedenen Gesichtsausdrücken und Posen generiert oder aus einem Landschaftsfoto Bilder mit unterschiedlichem Wetter und Licht erzeugt werden.

Beispiel:

image.png

Prompt: „Diese vierteilige Bildserie fängt die ruhigen Momente einer alten Dame ein, die sich um ihren Garten kümmert. [IMAGE1] Sie kniet neben einem blühenden Blumenbeet und beschneidet sanft eine Rosensträucher, während das sanfte Morgenlicht ihr silbernes Haar beleuchtet; [IMAGE2] Sie steht vor einer Gießkanne und hat einen ruhigen und friedlichen Ausdruck, während sie ihre Pflanzen pflegt; [IMAGE3] Eine Nahaufnahme zeigt ihr zufriedenes Lächeln, als sie eine sich öffnende Blüte in der Hand betrachtet; Stolz und Freude sind deutlich sichtbar; [IMAGE4] Sie sitzt auf einer kleinen Bank und trinkt Tee in ihrem Garten, umgeben von den leuchtenden Farben ihrer fleißigen Arbeit.

image.png

Prompt: „Dieses zweiteilige Bildpaar zeigt die transformative Wirkung eines Sandsturms auf eine Sportlandschaft; [IMAGE1] Auf einem üppigen grünen Spielfeld steht eine American-Football-Mannschaft im Mittelpunkt, wobei ein Spieler einen Fußball hält und bei hellem Sonnenlicht aufgenommen wird; [IMAGE2] Wechsel zu demselben Spieler, der von dramatischen Sandsturm- und Blitzeffekten verschlungen wird, wobei Staub um ihn herum wirbelt und einen heftigen Sandsturm auf einem dunklen, düsteren Spielfeld erzeugt.

Die Testergebnisse zeigen, dass IC-LoRA bei verschiedenen Bildgenerierungsaufgaben hochwertige Ergebnisse liefert. Ob es sich um die Generierung von Personenporträts, Schriftdesigns, Inneneinrichtungen oder die Erstellung von Filmstoryboards und visuellen Effekten handelt – IC-LoRA meistert alle Aufgaben mit Leichtigkeit. Es ist ein wahrer „Alleskönner“.

Das Erscheinen von IC-LoRA ist ein absoluter Meilenstein im Bereich der KI-Bildgenerierung. Es reduziert die Trainingskosten von KI-Modellen erheblich und ermöglicht es mehr Menschen, sich an der KI-Kreation zu beteiligen.

Mit der Weiterentwicklung von IC-LoRA können wir davon ausgehen, dass KI zu einem für jeden zugänglichen Kreativwerkzeug wird, das es jedem ermöglicht, ein Künstler zu sein.

Projekt-Adresse: https://ali-vilab.github.io/In-Context-LoRA-Page/