谷歌提出百万专家Mixture 释放进一步扩展 Transformer 的潜力

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jul 10, 2024

Google DeepMind提出的百万专家Mixture模型，一个在Transformer架构上迈出了革命性步伐的研究。

想象一下，一个能够从一百万个微型专家中进行稀疏检索的模型，这听起来是不是有点像科幻小说里的情节?但这正是DeepMind的最新研究成果。这项研究的核心是一种参数高效的专家检索机制，它利用乘积密钥技术，将计算成本与参数计数分离，从而在保持计算效率的同时，释放了Transformer架构的更大潜力。

这项工作的亮点在于，它不仅探索了极端MoE设置，还首次证明了学习索引结构可以有效地路由到超过一百万个专家。这就好比在茫茫人海中，迅速找到那几个能够解决问题的专家，而且这一切还都是在计算成本可控的前提下完成的。

在实验中，PEER架构展现出了卓越的计算性能，与密集的FFW、粗粒度MoE和产品密钥存储器（PKM）层相比，其效率更高。这不仅仅是理论上的胜利，更是在实际应用中的一次巨大飞跃。通过实证结果，我们可以看到PEER在语言建模任务中的优越表现，它不仅困惑度更低，而且在消融实验中，通过调整专家数量和活跃专家的数量，PEER模型的性能得到了显著提升。

这项研究的作者，Xu He（Owen），是Google DeepMind的研究科学家，他的这次单枪匹马的探索，无疑为AI领域带来了新的启示。正如他所展示的，通过个性化和智能化的方法，我们能够显著提升转化率，留住用户，这在AIGC领域尤为重要。

论文地址:https://arxiv.org/abs/2407.04153

Google DeepMind Mixture model Transformer架构 PEER架构

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Google Gemini 推出新功能：轻松识别 AI 生成的图片内容

Google推出新功能，Gemini用户可通过询问“这张图片是AI生成的吗？”快速识别由Google AI工具创作或编辑的图片。未来计划扩展至视频和音频验证，并可能整合到搜索等服务中。目前该功能主要依赖Google自有技术实现。

2025年11月21号 9:30

450

谷歌 DeepMind 聘请波士顿动力前 CTO，开启机器人新时代

谷歌DeepMind聘请波士顿动力前CTO亚伦·桑德斯担任硬件工程副总裁，强化机器人领域布局。桑德斯以开发后空翻、跳舞机器人闻名，其加入是CEO哈萨比斯推进“Gemini”计划的关键一步。哈萨比斯称，该计划旨在打造类似安卓系统的机器人操作系统。

2025年11月20号 11:19

370

Google DeepMind 在新加坡设立 AI 实验室，为学生提供免费 AI Pro 服务

Google DeepMind在新加坡设立AI研究实验室，推动亚太地区AI研发与应用。团队规模近一年翻倍，汇聚科研、工程及影响专家，专注关键领域发展。

2025年11月19号 17:52

630

Google 推出 Generative UI:AI 将实时生成交互界面

谷歌发布Generative UI技术，AI可自动生成可视化交互界面，用户提问时不仅能获得文字答案，还能看到动态效果和可操作界面，突破传统交互方式。

2025年11月19号 9:32

1.1k

谷歌发布其最智能模型Gemini3Pro，专家级编码支持，深度理解图片视频

谷歌DeepMind推出最新AI模型Gemini3Pro，号称“最智能模型”。它具备强大推理能力，能帮助用户学习、构建和规划，尤其在理解复杂主题时提供清晰、简明且有用的回答。该模型不仅能辅助知识学习，还通过丰富响应方式加深信息理解，并能将想法转化为现实。

2025年11月19号 9:21

190

微博开源Vibe Thinker：15亿参数击败DeepSeek R1，后训练成本仅7800美元

微博推出开源大模型Vibe Thinker，仅15亿参数却在数学竞赛基准测试中击败6710亿参数的DeepSeek R1，准确率更高且训练成本仅7800美元。采用轻量化MoE架构与知识蒸馏技术，仅需5GB数学语料即可微调，支持Hugging Face下载和商用。该模型在AIME等国际数学竞赛中表现优异。

2025年11月18号 16:57

420