LEO

3D世界中的全能代理人

普通产品图像3D世界多模态

LEO是一个基于大型语言模型的多模态、多任务全能代理人，能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现：（i）3D视觉语言对齐和（ii）3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集，需要对3D世界进行深入的理解和交互。通过严格的实验，我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

Best AI Websites & Tools

LEO

LEO 最新流量情况

LEO 访问量趋势

LEO 访问地理位置分布

LEO 流量来源

LEO 替代品

LEO — 3D世界中的全能代理人

Inception Labs — Inception Labs 推出新一代扩散式大语言模型，提供极速、高效和高质量的语言生成能力。

UniTok — UniTok是一个用于视觉生成和理解的统一视觉分词器。

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

Mochii AI — Mochii AI 是一款由尖端模型支持的个性化人工智能生态系统，助力人类与 AI 协作的未来。

TheoremExplainAgent — TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

OmniHuman-1 — OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。

MILS — LLMs 无需任何培训就能看见和听见

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

UI-TARS — UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

Albus AI — 全能AI工作空间，实时语音助手搭配多模态画布，助力高效创作与思考。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

DiffSensei — 定制化漫画生成模型，连接多模态LLMs和扩散模型。

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

Valley — 多模态大型模型，处理文本、图像和视频数据

FlagAI — 一站式大模型算法、模型及优化工具开源项目

Infini-Megrez — 端侧全模态理解模型，软硬协同释放无穹端侧智能

WePOINTS — WePOINTS项目，提供多模态模型的统一框架

InternVL 2.5 — 开源多模态大型语言模型系列

Amazon Nova — Amazon Nova是亚马逊新一代的基础模型，提供前沿智能和行业领先的性价比。

DataChain — 现代Python数据框库，专为人工智能设计。

Spirit LM — 多模态语言模型，融合文本和语音

2233.ai — 即买即用的人工智能对话服务

UniMuMo — 统一文本、音乐和动作生成模型

岩芯数智 — 国产化大模型，支持多模态，快速低成本智能化转型。