PixelProse是一个由tomg-group-umd创建的大规模数据集,它利用先进的视觉-语言模型Gemini 1.0 Pro Vision生成了超过1600万个详细的图像描述。这个数据集对于开发和改进图像到文本的转换技术具有重要意义,可以用于图像描述生成、视觉问答等任务。