Das Shanghai Artificial Intelligence Laboratory (Shanghai AI Lab) hat kürzlich sein erstes großes, multimodalen Modell für die Erstellung von Text-Bild-Kombinationen vorgestellt: InternLM-XComposer (auch bekannt als „Sheng·Puyu Lingbi“). InternLM-XComposer ermöglicht flüssige Text-Bild-Dialoge auf Chinesisch und Englisch, versteht Bildinhalte präzise und bietet die Möglichkeit, Text-Bild-Artikel mit nur einem Klick zu erstellen. Der Benutzer muss lediglich ein Thema angeben, und InternLM-XComposer generiert einen bebilderten Artikel. InternLM-XComposer verwendet einen dreistufigen Algorithmus zur Erstellung von Text-Bild-Artikeln: Textgenerierung, Illustrationsplanung und intelligente Bildauswahl. In mehreren gängigen Benchmarks für multimodale Modelle erzielte InternLM-XComposer Spitzenergebnisse, insbesondere beim Verständnis multimodaler Inhalte in chinesischer Sprache. InternLM-XComposer ist auf Plattformen wie GitHub Open Source verfügbar und steht Entwicklern für Tests und innovative Anwendungen zur Verfügung.