的研究团队宣布了一项令人兴奋的进展,他们开发了一种名为 HOVER(人形多功能控制器)的新型神经网络。这个神经网络拥有150万参数,专门用于协调人形机器人的运动和操作。

image.png

NVIDIA 的高级研究经理 Jim Fan 表示:“并不是所有基础模型都需要庞大。我们训练的这个1.5M 参数的神经网络,旨在控制人形机器人的身体。” 他进一步解释,HOVER 能够捕捉到人类运动中的潜意识过程,这样一来,机器人就可以在没有繁琐编程的情况下执行复杂任务。他提到,“人类在行走、保持平衡,以及灵活操控四肢时,都需要大量的潜意识处理。”

在训练过程中,HOVER 使用了 NVIDIA 的 Isaac 模拟平台,这个平台能够加速物理仿真,速度是现实时间的10000倍。

Jim Fan 透露,这个模型在虚拟环境中经过了一年的训练,实际上只花费了大约50分钟的真实时间,这在单个 GPU 上完成。他表示,这种高效的训练使得神经网络能够顺利转移到现实应用中,而不需要进行微调。

HOVER 具备响应多种高层运动指令的能力,包括使用 XR 设备(如苹果的 Vision Pro)进行头部和手部姿势的控制,或通过动作捕捉和 RGB 相机获取全身姿势,甚至可以从外骨骼获取关节角度,或从操纵杆获取根速度命令。Fan 强调,HOVER 为控制不同输入设备的机器人提供了一个统一的接口,从而便利了用于训练的遥操作数据的收集。

此外,HOVER 还与上游的视觉 - 语言 - 动作模型集成,使得运动指令能够高频率地转化为低级别的马达信号。这个模型与任何可以在 Isaac 中模拟的人形机器人兼容,使得用户可以轻松地赋予机器人生命。

早在今年年初,NVIDIA 还宣布了一个名为 GR00T 的项目,这是一个通用基础模型,专为人形机器人设计。GR00T(Generalist Robot00Technology)所驱动的机器人,能够理解自然语言,并通过观察动作来模仿人类的动作,这让它们能够快速学习协调、灵活性及其他在现实世界中有效互动所需的技能。

论文网址:https://arxiv.org/pdf/2410.21229

划重点:

- 🤖 NVIDIA 推出 HOVER,一个150万参数的神经网络,旨在控制人形机器人的运动与操作。

- ⏳ HOVER 在虚拟环境中训练了一年,实际训练时间仅为50分钟,提升了现实应用的效率。

- 🎮 HOVER 支持多种高层运动指令,能与不同输入设备协同工作,为机器人控制提供统一接口。