PixelLLM

像素对齐语言模型

普通产品图像图像定位语言模型
PixelLLM是一种用于图像定位任务的视觉 - 语言模型。该模型可以根据输入的位置生成描述性文字,也可以根据输入的文字生成像素坐标进行密集的定位。通过在 Localized Narrative 数据集上进行预训练,模型学习了单词与图像像素之间的对齐关系。PixelLLM 可应用于多种图像定位任务,包括指示定位、位置条件描述和密集物体描述,并在 RefCOCO 和 Visual Genome 等数据集上达到了最先进的性能。
打开网站

PixelLLM 最新流量情况

月总访问量

1462

跳出率

37.07%

平均页面访问数

2.3

平均访问时长

00:00:59

PixelLLM 访问量趋势

PixelLLM 访问地理位置分布

PixelLLM 流量来源

PixelLLM 替代品