PixelLLMは、画像位置特定タスクのための視覚言語モデルです。入力された位置に基づいて記述的なテキストを生成したり、入力されたテキストに基づいてピクセル座標を生成し、高密度な位置特定を行うことができます。Localized Narrativeデータセットで事前学習することにより、単語と画像ピクセル間の対応関係を学習しています。PixelLLMは、指示に基づく位置特定、位置条件付き記述、高密度物体記述など、様々な画像位置特定タスクに適用でき、RefCOCOやVisual Genomeなどのデータセットで最先端の性能を達成しています。