谷歌正在通过 Gemini AI 训练其机器人,以提高导航和任务完成的能力。

DeepMind 机器人团队在一篇新的研究论文中详细解释了如何利用 Gemini1.5Pro 的长上下文窗口来让用户更轻松地用自然语言指令与 RT-2机器人交互。通过拍摄指定区域的视频游览,研究人员使用 Gemini1.5Pro 让机器人 “观看” 视频以了解环境,从而使机器人能够根据观察到的情况执行命令,比如引导用户到电源插座充电等。

image.png

DeepMind 表示,搭载 Gemini 的机器人在9000多平方英尺的操作区域内成功执行了50多个用户指令,成功率达到90%。

此外,研究人员还发现 Gemini1.5Pro 让机器人能够计划如何完成指令,不仅限于导航。例如,当一个桌子上放着很多可乐罐的用户询问机器人是否有他们最喜欢的饮料时,Gemini 让机器人知道应该前往冰箱检查,然后向用户报告结果。DeepMind 表示将进一步调查这些结果。

根据研究论文显示,虽然谷歌提供的视频演示令人印象深刻,但根据论文所示,机器人处理这些指令需要10-30秒的时间。尽管我们可能需要一些时间才能与更先进的环境测绘机器人共享家园,但至少这些机器人可能能够帮我们找到遗失的钥匙或钱包。

划重点:

🤖 Gemini AI 训练机器人,提高导航和任务完成能力

🧠 Gemini1.5Pro 让机器人能够执行自然语言指令

🔍 研究发现 Gemini 让机器人能够计划执行超出导航范围的指令