PixelLLM

像素对齐语言模型

普通产品图像图像定位语言模型

PixelLLM是一种用于图像定位任务的视觉 - 语言模型。该模型可以根据输入的位置生成描述性文字，也可以根据输入的文字生成像素坐标进行密集的定位。通过在 Localized Narrative 数据集上进行预训练，模型学习了单词与图像像素之间的对齐关系。PixelLLM 可应用于多种图像定位任务，包括指示定位、位置条件描述和密集物体描述，并在 RefCOCO 和 Visual Genome 等数据集上达到了最先进的性能。

位置条件描述
指示定位
密集物体描述

适用于图像定位任务，如位置条件描述、指示定位和密集物体描述。

打开网站

PixelLLM 最新流量情况

月总访问量

1823

跳出率

49.97%

平均页面访问数

1.0

平均访问时长

00:00:00

PixelLLM 访问量趋势

PixelLLM 访问地理位置分布

PixelLLM 流量来源

PixelLLM 替代品

Best AI Websites & Tools

PixelLLM

PixelLLM 最新流量情况

PixelLLM 访问量趋势

PixelLLM 访问地理位置分布

PixelLLM 流量来源

PixelLLM 替代品

Xwen-Chat — Xwen-Chat是专注中文对话的大语言模型集合，提供多版本模型及语言生成服务

MiniMax-01 — 强大的语言模型，拥有4560亿总参数，可处理长达400万token的上下文。

CAG — 一种无需实时检索的语言模型增强方法，通过预加载知识缓存来提高生成效率。

YuLan-Mini — 一款高效率的2.4亿参数轻量级语言模型

OLMo-2-1124-13B-DPO — 高性能英文语言模型，适用于多样化任务

OpenScholar — 科学文献合成的检索增强型语言模型

OLMo 2 13B — 高性能的英文学术基准语言模型

OLMo 2 — 最先进的全开放语言模型

MobileLLM-1B — Meta 开发的子十亿参数语言模型，适用于设备端应用。

MobileLLM-350M — 高效优化的子十亿参数语言模型，专为设备端应用设计

Zamba2-7B — 高效能小型语言模型

Entropy-based sampling — 基于熵的采样技术，优化模型输出的多样性和准确性

Chat With Your Docs — 与文档进行自然语言对话的Python应用

rStar — 通过自博弈相互推理，提升小型语言模型的解决问题能力。

Meta Llama 3.1-405B — 大型多语言预训练语言模型

DCLM-baseline — 高性能语言模型基准测试数据集

Arcee Spark — 高效紧凑的7B参数语言模型

multi-token prediction — 多令牌预测模型，提升语言模型的效率与性能

MDLM — 一种高效的遮蔽扩散语言模型。

Samba — 高效无限上下文语言模型的官方实现

HippoRAG — 基于人类长期记忆的新型RAG框架

MAP-NEO — 一个完全开源的大型语言模型，提供先进的自然语言处理能力。

Trustworthy Language Model (TLM) — 在浏览器中尝试Cleanlab的可信任语言模型（TLM）

LLaVA++ — 扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

OpenELM — OpenELM是一套高效的语言模型家族，具备开源训练和推理框架。

Cappy — 一款小型评分器,提升大型多任务语言模型性能

KarpathyLLMChallenge — 深入理解语言模型中的标记化过程

H2O-Danube-1.8B — 1.8B语言模型，开源免费

LLMs-from-scratch — 深入了解大型语言模型的内部工作