ROCKET-1
掌握开放世界交互的视觉-时间上下文提示模型
普通产品编程视觉-语言模型具身决策
ROCKET-1是一个视觉-语言模型(VLMs),专门针对开放世界环境中的具身决策制定而设计。该模型通过视觉-时间上下文提示协议,将VLMs与策略模型之间的通信连接起来,利用来自过去和当前观察的对象分割来指导策略-环境交互。ROCKET-1通过这种方式,能够解锁VLMs的视觉-语言推理能力,使其能够解决复杂的创造性任务,尤其是在空间理解方面。ROCKET-1在Minecraft中的实验表明,该方法使代理能够完成以前无法实现的任务,突出了视觉-时间上下文提示在具身决策制定中的有效性。
ROCKET-1 最新流量情况
月总访问量
231
跳出率
47.66%
平均页面访问数
1.4
平均访问时长
00:00:50