In den letzten Jahren haben große Sprachmodelle (LLMs) im Bereich der künstlichen Intelligenz bemerkenswerte Fortschritte erzielt, insbesondere im Bereich der multimodalen Fusion. Ein gemeinsames Team der Huazhong University of Science and Technology, ByteDance und der University of Hong Kong hat kürzlich ein neuartiges multimodales Generierungsframework namens Liquid vorgestellt, das darauf abzielt, die Einschränkungen aktueller multimodaler Modelle in der Bildverarbeitung zu lösen.

image.png

Herkömmliche multimodale große Sprachmodelle verlassen sich auf komplexe externe visuelle Module, was nicht nur die Systemkomplexität erhöht, sondern auch die Skalierbarkeit einschränkt. Die Innovation von Liquid liegt in der Verwendung von VQGAN als Bildtokenizer. Es verzichtet auf externe visuelle Komponenten und kodiert Bilder in diskrete visuelle Token. Dadurch kann das Modell Token aus Text und Bild direkt in einem gemeinsamen Vokabular verarbeiten und erreicht so ein „natives“ visuelles Verständnis und Generierungsvermögen.

image.png

Untersuchungen zeigen, dass Liquid nicht nur die Trainingskosten senkt, sondern auch die Skalierungsgesetze der multimodalen Fähigkeiten mit LLMs aufzeigt. Das Team führte Experimente mit LLMs unterschiedlicher Größe (von 0,5 B bis 32 B) durch. Die Ergebnisse zeigen, dass mit zunehmender Modellgröße sowohl die Leistung als auch die Qualität der Bilderzeugung bei visuellen Aufgaben den gleichen Skalierungsgesetzen folgen wie bei Sprach-Aufgaben. Noch erfreulicher ist, dass zwischen visuellem Verständnis und Bildgenerierung eine wechselseitige Förderung besteht, d. h. beide können durch einen gemeinsamen Repräsentationsraum gemeinsam optimiert werden.

Das Design von Liquid verkörpert einen minimalistischen Ansatz: Bilder und Text werden gleich behandelt und in einem einheitlichen Framework verarbeitet. Bei der Erstellung nutzte das Forschungsteam 30 Millionen Textdaten und 30 Millionen Bild-Text-Paare, um das multimodale Training des Modells zu ermöglichen. Die Endergebnisse zeigen, dass Liquid in multimodalem Verständnis, Bildgenerierung und rein textbasierten Aufgaben eine überlegene Leistung aufweist. Die semantische Konsistenz zwischen den generierten Bildern und dem Text ist deutlich höher als bei anderen autoregressiven Modellen.

Liquid bietet neue Ansätze für die Architektur von universeller multimodaler Intelligenz und deutet darauf hin, dass die künstliche Intelligenz in der Zukunft eine effizientere und flexiblere Entwicklung im Bereich der multimodalen Fusion erleben könnte.

Link zur Veröffentlichung: https://arxiv.org/pdf/2412.04332