Kosmos-2は、自然言語を画像、動画などの様々な形式の入力と関連付けることができるマルチモーダル大規模言語モデルです。短語位置特定、指示表現理解、指示表現生成、画像記述、視覚的質問応答などのタスクに使用できます。Kosmos-2は、大量の画像・テキストペアを含むGRITデータセットを使用して訓練と評価が行われています。Kosmos-2の強みは、自然言語と視覚情報を関連付けることで、モデルの性能を向上させることができる点です。