PixelLLM é um modelo de linguagem visual para tarefas de localização em imagens. O modelo pode gerar descrições textuais com base na localização de entrada, ou gerar coordenadas de pixels para localização densa com base em texto de entrada. Através de pré-treinamento no conjunto de dados Localized Narrative, o modelo aprendeu o relacionamento de alinhamento entre palavras e pixels de imagem. O PixelLLM pode ser aplicado a diversas tarefas de localização de imagem, incluindo localização por indicação, descrição condicionada à localização e descrição densa de objetos, alcançando desempenho de ponta em conjuntos de dados como RefCOCO e Visual Genome.