Im Bereich der künstlichen Intelligenz machen KI-Künstler stetig Fortschritte. Doch selbst die fortschrittlichsten KI-Bildgenerierungsmodelle stoßen bei scheinbar einfachen Aufgaben auf Schwierigkeiten. Kürzlich entdeckte Zhao Juntus Forschungsteam an der Shanghai Jiao Tong Universität, dass KIs bei der Generierung eines Bildes von „Eistee in einer Teetasse“ unerwartete Probleme haben.

Dieses Phänomen, bekannt als Text-Bild-Fehlanpassung (text-image misalignment), erregte die Aufmerksamkeit der akademischen Welt. Bereits im Oktober 2023, als KI-Bildgenerierungsmodelle aufkamen, versuchte Zhao Juntus Team, das Szenario zu generieren. Die KI malte stets ein Glas mit Eistee statt einer Teetasse. Selbst im Juli 2024 lieferten die modernsten Modelle keine zufriedenstellenden Ergebnisse.

image.png

Um diesem Problem auf den Grund zu gehen, klassifizierte die Forschungsgruppe von Professor Wang Dequan an der Shanghai Jiao Tong Universität dieses Problem in ihrer bald erscheinenden Arbeit „Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models“ als Fehlanpassung latenter Konzepte (Latent Concept Misalignment, kurz LC-Mis), die versteckte Variablen beinhaltet. Sie entwickelten ein auf großen Sprachmodellen (LLMs) basierendes System, das die im LLM enthaltene menschliche Denkweise nutzt, um schnell Konzeptpaare mit ähnlichen Problemen zu sammeln.

Das Forschungsteam entwickelte eine Methode namens Mixture of Concept Experts (MoCE), die die Regeln des sequenziellen Zeichnens in den mehrstufigen Abtastprozess von Diffusionsmodellen integriert und so die fehlende Teetasse erfolgreich wiederfindet.

Der Abtastprozess wird in zwei Phasen unterteilt: In der ersten Phase werden nur leicht zu übersehende Konzepte bereitgestellt, in der zweiten Phase dann die vollständige Textaufforderung. Durch diesen Ansatz kann MoCE die Ausrichtung von Text und Bild bei der Bildgenerierung präziser steuern.

MoCE reduziert den Anteil von LC-Mis-Konzeptpaaren der Stufe 5 deutlich und übertrifft sogar teilweise Dall-E 3 (Oktober 2023 Version), das einen hohen Aufwand für die Datenannotation erfordert.

Darüber hinaus stellte das Forschungsteam fest, dass bestehende automatisierte Bewertungsmetriken bei solchen neuen Problemen deutliche Mängel aufweisen. Einige Metriken beispielsweise bewerteten Eistee in einer Teetasse niedriger als Eistee in einem Glas. Dies zeigt, dass selbst die Werkzeuge zur Bewertung der KI-Leistung Vorurteile und Einschränkungen aufweisen können.

Die Forscher planen, in zukünftigen Arbeiten komplexere LC-Mis-Szenarien zu untersuchen und lernfähige Suchalgorithmen zu entwickeln, um die Anzahl der Iterationen zu reduzieren. Sie beabsichtigen auch, die im Datensatz verwendeten Modelltypen, Modellversionen und Samplertypen zu erweitern und den Datensammelalgorithmus kontinuierlich zu iterieren, um den Datensatz zu verbessern und zu erweitern.

Diese Forschung liefert nicht nur neue Einblicke in die Grenzen der KI bei der Bildgenerierung, sondern bietet auch neue Ideen und Methoden zur Verbesserung der KI-Bildgenerierung. Mit dem technischen Fortschritt erwarten wir, dass die KI größere Fortschritte beim Verständnis und der Reproduktion menschlicher Kreativität machen wird.

Projektseite: https://lcmis.github.io/

Forschungsarbeit: https://arxiv.org/pdf/2408.00230