PixelLLM एक दृश्य-भाषा मॉडल है जो छवि स्थानीयकरण कार्यों के लिए उपयोग किया जाता है। यह मॉडल इनपुट स्थिति के आधार पर वर्णनात्मक पाठ उत्पन्न कर सकता है, और इनपुट पाठ के आधार पर सघन स्थानीयकरण के लिए पिक्सेल निर्देशांक उत्पन्न कर सकता है। Localized Narrative डेटासेट पर पूर्व-प्रशिक्षण के माध्यम से, मॉडल ने शब्दों और छवि पिक्सेल के बीच संरेखण संबंध सीखा है। PixelLLM का उपयोग कई छवि स्थानीयकरण कार्यों में किया जा सकता है, जिसमें निर्देशित स्थानीयकरण, स्थिति-सशर्त विवरण और सघन वस्तु विवरण शामिल हैं, और यह RefCOCO और Visual Genome जैसे डेटासेट पर अत्याधुनिक प्रदर्शन प्राप्त करता है।