ROCKET-1

掌握开放世界交互的视觉-时间上下文提示模型

普通产品编程视觉-语言模型具身决策
ROCKET-1是一个视觉-语言模型(VLMs),专门针对开放世界环境中的具身决策制定而设计。该模型通过视觉-时间上下文提示协议,将VLMs与策略模型之间的通信连接起来,利用来自过去和当前观察的对象分割来指导策略-环境交互。ROCKET-1通过这种方式,能够解锁VLMs的视觉-语言推理能力,使其能够解决复杂的创造性任务,尤其是在空间理解方面。ROCKET-1在Minecraft中的实验表明,该方法使代理能够完成以前无法实现的任务,突出了视觉-时间上下文提示在具身决策制定中的有效性。
打开网站

ROCKET-1 最新流量情况

月总访问量

747

跳出率

56.53%

平均页面访问数

1.0

平均访问时长

00:00:00

ROCKET-1 访问量趋势

ROCKET-1 访问地理位置分布

ROCKET-1 流量来源

ROCKET-1 替代品