Kosmos-2 est un grand modèle linguistique multimodale capable de corréler le langage naturel avec des entrées de plusieurs formats, tels que les images et les vidéos. Il peut être utilisé pour des tâches telles que la localisation de phrases, la compréhension et la génération d'expressions référentielles, la description d'images et la question-réponse visuelle. Kosmos-2 utilise l'ensemble de données GRIT, qui contient un grand nombre de paires image-texte, utilisables pour l'entraînement et l'évaluation du modèle. L'avantage de Kosmos-2 réside dans sa capacité à corréler le langage naturel et les informations visuelles, améliorant ainsi les performances du modèle.