Forscher von Meta AI haben zusammen mit akademischen Partnern ein innovatives System namens MILS (Multimodal Iterative LLM Solver) entwickelt. Dieses System ermöglicht es großen Sprachmodellen, Bilder, Videos und Audiodaten zu verarbeiten, ohne dass sie speziell dafür trainiert werden müssen. MILS nutzt die natürliche Problemlösungsfähigkeit von Sprachmodellen und ist nicht auf umfangreiche Datentrainings angewiesen – ein entscheidender Vorteil.
MILS funktioniert, indem es zwei KI-Modelle kombiniert: einen „Generator“, der Lösungsvorschläge erstellt, und einen „Bewerter“, der die Qualität dieser Vorschläge bewertet. Das Feedback des Bewerters hilft dem Generator, seine Antworten iterativ zu verbessern, bis ein zufriedenstellendes Ergebnis erreicht ist. Bei der Bildbeschreibung beispielsweise kann MILS die Beschreibung schrittweise verfeinern und so Details auf verschiedenen Ebenen präzise erfassen.
Besonders hervorzuheben ist die Leistung von MILS bei der Bildbeschreibung. Mit dem Llama-3.1-8B-Modell als Generator und dem CLIP-Modell als Bewerter erstellt MILS Bildbeschreibungen, die mit den derzeit führenden Methoden vergleichbar sind oder sogar detaillierter sind, obwohl CLIP nicht speziell für diese Aufgabe trainiert wurde. Darüber hinaus verbessert MILS die Text-zu-Bild-Generierung durch Feinabstimmung von Textaufforderungen und kann KI-generierte Aufforderungen mit Bildbearbeitungswerkzeugen kombinieren, um Aufgaben wie die Stilübertragung zu bewältigen.
Die Genauigkeit der Bildbeschreibung steigt mit der Anzahl der Schritte zwischen Generator und Bewerter. | Bild: Ashutosh et al.
MILS beschränkt sich nicht auf Bilder, sondern erweitert seine Funktionalität auf Videos und Audiodaten. Bei Tests mit dem MSR-VTT-Videodatenset übertraf MILS bestehende Modelle in der Beschreibung von Videoinhalten. Da MILS während des Betriebs keine Modellparameter verändert, kann es verschiedene Datentypen in lesbaren Text umwandeln und Informationen aus verschiedenen Quellen (Bilder, Audio usw.) kombinieren und in das gewünschte Format umwandeln. Dies eröffnet neue Möglichkeiten für die Fusion multimodaler Informationen.
Tests zeigten, dass größere Generator- und Bewertermodelle genauere Ergebnisse liefern und die Erhöhung der Anzahl potenzieller Lösungen die Leistung deutlich verbessert. Die Forscher stellten außerdem fest, dass die Skalierung auf größere Sprachmodelle nicht nur die Qualität der Ergebnisse verbessert, sondern auch zu einer deutlichen Leistungssteigerung führt.
Eine Landschaftsbeschreibung entwickelt sich von einer einfachen Grundbeschreibung zu einer komplexen Darstellung mit präziseren Details und mehr natürlichen Elementen. | Bild: Ashutosh et al.
Die von MILS verwendete innovative Strategie entspricht dem aktuellen Trend im Bereich der künstlichen Intelligenz hin zu intelligenteren Schlussfolgerungsfähigkeiten. Das Meta-Team gibt außerdem an, dass MILS in Zukunft großes Potenzial in Bereichen wie der 3D-Datenverarbeitung haben könnte und die Entwicklung multimodaler KI weiter vorantreiben wird.
Mit der rasanten Entwicklung von OpenAIs GPT-4 und anderen Open-Source-Alternativen wie Metas Llama3.2, Mistrals Pixtral und DeepSeeks Janus Pro beschleunigen diese neuen multi-modalen KI-Systeme ihre Anwendung im Alltag und legen einen wichtigen Grundstein für die zukünftige Entwicklung der künstlichen Intelligenz.