PixelLLM est un modèle vision-langage conçu pour les tâches de localisation d'image. Ce modèle peut générer une description textuelle à partir d'une position d'entrée, ou générer des coordonnées de pixels pour une localisation précise à partir d'une description textuelle. Pré-entraîné sur l'ensemble de données Localized Narrative, le modèle apprend la correspondance entre les mots et les pixels de l'image. PixelLLM peut être appliqué à diverses tâches de localisation d'image, notamment la description conditionnelle à la localisation, la localisation par indication et la description dense d'objets, atteignant des performances de pointe sur des ensembles de données tels que RefCOCO et Visual Genome.