Kosmos-2 ist ein multimodales großes Sprachmodell, das natürliche Sprache mit verschiedenen Eingabeformen wie Bildern und Videos verknüpfen kann. Es kann für Aufgaben wie Phrasenlokalisierung, Referenzausdruckverständnis, Referenzausdruckgenerierung, Bildbeschreibung und visuelle Fragebeantwortung eingesetzt werden. Kosmos-2 nutzt den GRIT-Datensatz, der zahlreiche Bild-Text-Paare enthält und zum Trainieren und Bewerten des Modells verwendet wird. Der Vorteil von Kosmos-2 liegt in der Verknüpfung von natürlicher Sprache mit visuellen Informationen, wodurch die Leistung des Modells verbessert wird.