近日,Waymo 公司正式发布了一款名为 “端到端多模态自动驾驶模型”(EMMA)的 AI 研究模型。该模型专门为自动驾驶技术进行了训练和微调,利用 Gemini 的广泛知识,旨在更好地理解复杂的道路场景。Waymo 在其发布的研究论文中详细介绍了该模型的设计理念和技术优势,并探讨了纯端到端方法的优缺点。
图源备注:图片由AI生成,图片授权服务商Midjourney
Waymo 表示,EMMA 模型是建立在 Gemini 的基础之上,充分发挥了其能力,专注于自动驾驶的任务,如运动规划和三维物体检测。该模型在多个关键的自动驾驶任务中展现出良好的任务迁移能力。Waymo 指出,与为每个任务训练单独模型相比,EMMA 在路径预测、物体检测和道路图理解等方面的表现显著提升。
Waymo 的研究结果显示,EMMA 的构建为未来更多核心自动驾驶任务的组合提供了一个有希望的研究方向。Waymo 的副总裁及研究负责人 Drago Anguelov 表示:“EMMA 展示了多模态模型在自动驾驶领域的强大能力与重要性,我们期待进一步探索多模态方法和组件如何助力构建更加通用和适应性强的驾驶系统。”
在处理原始摄像头输入和文本数据的能力方面,EMMA 也表现不俗。它能够生成各种驾驶输出,并通过建立统一的语言空间,充分利用 Gemini 的世界知识以及推理能力,增强决策过程,提高端到端规划的效率。
Waymo 强调,这项研究的重要性不仅限于自动驾驶汽车的应用,还通过将先进的 AI 技术应用于现实世界任务,拓展了 AI 在复杂动态环境中的能力。
划重点:
🚗 EMMA 模型专为自动驾驶训练,利用 Gemini 知识理解复杂道路场景。
📈 与传统模型相比,EMMA 在关键任务上展现出更高效的表现。
🌍 研究成果不仅应用于自动驾驶,拓展了 AI 在动态环境中的应用潜力。