Waymo 利用谷歌 Gemini 来训练其自动驾驶出租车

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月31号 9:37

127

Waymo 近日宣布了一项重大突破，开发了一种基于谷歌多模态大型语言模型（MLLM） Gemini 的新训练模型，用于其自动驾驶出租车的开发。这种新模型被称为 EMMA(自动驾驶端到端多模态模型)，它能够处理传感器数据以生成自动驾驶汽车的未来轨迹，帮助无人驾驶汽车决定去哪里以及如何避开障碍物。

EMMA 模型是自动驾驶领域的领军企业计划在其运营中使用 MLLM 的首批迹象之一，表明这些 LLM 可以摆脱目前作为聊天机器人、电子邮件管理器和图像生成器的用途，并在道路的全新环境中找到应用。

Waymo 的研究团队表示，像 Gemini 这样的 MLLM 为自动驾驶系统提供了有趣的解决方案，原因有二:聊天机器人是一个“通才”，经过从互联网上抓取的大量数据的训练，“可以提供超出普通驾驶日志所包含内容的丰富‘世界知识’”;它们通过“思路链推理”等技术展示了“卓越”的推理能力，通过将复杂任务分解为一系列逻辑步骤来模仿人类的推理。

Waymo 的 EMMA 模型在轨迹预测、物体检测和路图理解方面表现出色，但也存在局限性，例如无法整合来自激光雷达或雷达的3D 传感器输入，且每次只能处理少量图像帧。使用 MLLM 训练自动驾驶出租车也存在风险，例如模型可能会出现幻觉或无法完成简单任务

。因此，Waymo 表示还需要进行进一步的研究来缓解这些问题并进一步发展自动驾驶模型架构的最新技术。

谷歌 Gemini Embedding：文本嵌入领域的新王者

近日，谷歌推出了其最新的文本处理模型 ——Gemini Embedding，并在 Massive Text Embedding Benchmark（MTEB）中取得了出色的成绩，成为当前性能最强的文本嵌入 AI 模型。这一消息无疑为 AI 文本处理领域注入了新的活力，令业界瞩目。Gemini Embedding 能够将文本转换为数值表示（向量），这使得它在语义搜索、推荐系统以及文档检索等应用中表现尤为优异。在 MTEB 基准测试中，该模型的平均任务得分高达68.32，远超其竞争对手如 Mistral、Cohere 和 Qwen 等。尤其在配对分类任务中，Gemini Embedding 的得分为85.

无需训练！Q-Filters 实现 KV 缓存高效压缩，提升推理性能

近年来，基于 Transformer 架构的大型语言模型（LLMs）取得了显著进展，诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。然而，这些扩展的上下文长度带来了实际应用中的一些重大挑战。随着序列长度的增加，解码延迟上升，内存限制也成为了一个严重的瓶颈。KV 缓存在推理过程中储存上下文信息，随着上下文长度的增加，缓存的大小也呈比例增长，这导致内存饱和，严重影响了处理长输入序列的效率，因此迫切需要优化解决方案。虽然市场上存在一些无训练的方

谷歌发布Whisk Animate预览版：将图像转化为 8 秒动画短片

谷歌在其实验性AI平台Google Labs中推出了Whisk Animate的预览版，这一新功能迅速在社交媒体平台X上引发了热议。根据最新的X帖子，Whisk Animate允许用户利用先进的Veo2模型，将静态的Whisk图像转化为时长8秒的动态视频剪辑，为创意工作者和AI爱好者提供了一个令人兴奋的新工具。Whisk Animate建立在谷歌此前推出的Whisk实验基础上。Whisk本身是一个结合Gemini模型和Imagen3的图像生成与混搭工具，用户可以通过上传或创建图像来定义主体、场景和风格，生成独特的视觉作品。而Whisk Animate则更进一步，通

Gemini或将新增功能Image to Code 应用亮相AI Studio

2025 年 3 月 6 日消息，根据X平台用户最新爆料，一款名为“Image to Code”的隐藏初创应用悄然出现在AI Studio中。这款应用由Gemini技术驱动，能够以图像作为输入，通过分析和推理，最终生成相应的程序代码，绘制出程序化的图像。这一消息迅速引发了科技爱好者和开发者的广泛关注。“Image to Code”：从图像到代码的智能转换据帖子描述，这款“Image to Code”应用展示了人工智能在图像处理和代码生成领域的最新成果。用户只需上传一张图像，Gemini便能对其进行智能分析，理解图像中的内容和