PixelProse tomg-group-umd द्वारा बनाया गया एक विशाल पैमाने का डेटासेट है, जिसने उन्नत विज़ुअल-भाषा मॉडल जेमिनी 1.0 प्रो विज़न का उपयोग करके 16 मिलियन से अधिक विस्तृत छवि विवरण उत्पन्न किए हैं। यह डेटासेट छवि-से-पाठ रूपांतरण तकनीकों के विकास और सुधार के लिए महत्वपूर्ण है, और इसका उपयोग छवि विवरण निर्माण, दृश्य प्रश्नोत्तर आदि कार्यों में किया जा सकता है।