PixelLLM
像素对齐语言模型
普通产品图像图像定位语言模型
PixelLLM是一种用于图像定位任务的视觉 - 语言模型。该模型可以根据输入的位置生成描述性文字,也可以根据输入的文字生成像素坐标进行密集的定位。通过在 Localized Narrative 数据集上进行预训练,模型学习了单词与图像像素之间的对齐关系。PixelLLM 可应用于多种图像定位任务,包括指示定位、位置条件描述和密集物体描述,并在 RefCOCO 和 Visual Genome 等数据集上达到了最先进的性能。
PixelLLM 最新流量情况
月总访问量
1462
跳出率
37.07%
平均页面访问数
2.3
平均访问时长
00:00:59