Video Language Planning

复杂长期任务的视觉规划

普通产品视频视觉规划多模态
Video Language Planning(VLP)是一种算法,通过训练视觉语言模型和文本到视频模型,实现了对复杂长期任务的视觉规划。VLP接受长期任务指令和当前图像观察作为输入,并输出一个详细的多模态(视频和语言)规划,描述如何完成最终任务。VLP能够在不同的机器人领域中合成长期视频规划,从多物体重新排列到多摄像头双臂灵巧操作。生成的视频规划可以通过目标条件策略转化为真实机器人动作。实验证明,与之前的方法相比,VLP显著提高了长期任务的成功率。
打开网站

Video Language Planning 最新流量情况

月总访问量

672

跳出率

52.77%

平均页面访问数

1.5

平均访问时长

00:01:26

Video Language Planning 访问量趋势

Video Language Planning 访问地理位置分布

Video Language Planning 流量来源

Video Language Planning 替代品