LEO

3D世界中的全能代理人

普通产品图像3D世界多模态
LEO是一个基于大型语言模型的多模态、多任务全能代理人,能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现:(i)3D视觉语言对齐和(ii)3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集,需要对3D世界进行深入的理解和交互。通过严格的实验,我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。
打开网站

LEO 最新流量情况

月总访问量

43

跳出率

50.86%

平均页面访问数

1.0

平均访问时长

00:00:00

LEO 访问量趋势

LEO 访问地理位置分布

LEO 流量来源

LEO 替代品