PixelLLM ist ein visuell-linguistisches Modell für Aufgaben der Bildlokalisierung. Das Modell kann sowohl aus gegebenen Positionen beschreibende Texte generieren als auch aus gegebenen Texten Pixelkoordinaten für eine dichte Lokalisierung erzeugen. Durch Pretraining auf dem Localized Narrative Datensatz lernte das Modell die Zuordnung zwischen Wörtern und Bildpixeln. PixelLLM ist auf verschiedene Bildlokalisierungsaufgaben anwendbar, darunter positionsbedingte Beschreibungen, instruktionsbasierte Lokalisierung und dichte Objektbeschreibungen, und erreicht auf Datensätzen wie RefCOCO und Visual Genome State-of-the-Art-Ergebnisse.