Kosmos-2 é um modelo de linguagem de grande porte multimodal que pode associar linguagem natural com entradas de várias formas, como imagens e vídeos. Pode ser usado em tarefas como localização de frases, compreensão de referências, geração de referências, descrição de imagens e perguntas e respostas visuais. O Kosmos-2 utiliza o conjunto de dados GRIT, que contém um grande número de pares imagem-texto, usados para treinamento e avaliação do modelo. A vantagem do Kosmos-2 reside na sua capacidade de associar linguagem natural com informações visuais, melhorando assim o desempenho do modelo.