谷歌利用小模型加速 AI 训练大模型，提升 28% 效率

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年1月7号 10:17

217

近年来，训练大型语言模型（LLM）变得越来越昂贵且复杂，只有少数大型科技公司具备相应的计算资源。不过，谷歌最近推出了一种名为 SALT(小模型辅助大模型训练)的新方法，这一创新可能会彻底改变 AI 训练的格局。

机器人人工智能 AI (4)

图源备注:图片由AI生成，图片授权服务商Midjourney

根据谷歌研究和 DeepMind 的最新研究论文，“一点帮助就能走得更远:通过利用小型语言模型实现高效的 LLM 训练”，SALT 引入了一种新的两阶段训练过程。这种方法不仅高效，而且更具实用性，改变了我们以往的训练方式。

SALT 的第一阶段是知识蒸馏。在这一阶段中，小型语言模型（SLM）充当教师，将其理解知识传递给更大的模型。小型模型通过 “软标签” 来分享其学习到的知识，帮助大型模型在学习的初期掌握基础概念。这个阶段尤其适用于小型模型在学习区域具有较强预测信心的 “简单” 任务。

第二阶段是自我监督学习。大型模型在这一阶段开始独立学习，专注于掌握更复杂的模式和挑战性任务。这个转变需要经过精心设计的策略，包括线性衰减和线性比例衰减，这确保了大型模型能够平稳过渡，逐步减少对小型模型的依赖。

谷歌研究人员在实验中发现，使用一个15亿参数的小型模型训练一个28亿参数的大型模型，在 “堆栈数据集” 上的训练时间缩短了28%。在经过微调后，大型模型在数学问题的准确率从31.84% 提升至34.87%，阅读理解的准确率也从63.7% 提高到67%。这种新方法不仅提升了训练效率，还在性能上取得了显著进步。

SALT 的出现有望降低 AI 开发的门槛，使得许多原本受限于资源的小型研究机构和公司也能参与到 AI 模型的开发中。研究和开发的机会将更加普及，可能会催生出更多独特和专业化的 AI 解决方案，带动相关领域的创新与应用。

划重点:
🌟 采用 SALT 方法可以将大型模型的训练时间缩短28%，极大降低了计算成本。
📈 使用小型模型进行知识蒸馏，能够显著提升大型模型在复杂任务上的表现。
🔍 SALT 的创新可能会降低 AI 开发的门槛，使得更多小型机构能够参与到 AI 研究中。

抖音副总裁否认AI团队大变阵：都是不实信息

李亮指出，一篇题为《字节AI团队大变阵》的文章中存在多处不实信息。文章中提及的技术副总裁杨震原即将退休、冯佳时将离职创业等说法，均为错误信源所致。此外，关于张一鸣拜访豌豆荚创始人王俊煜及上海模速空间创业公司的报道，同样与事实不符。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

Sakana AI发布“AI CUDA工程师”：自动化优化CUDA内核，速度提升高达100倍

日本人工智能初创公司Sakana AI宣布推出“AI CUDA工程师”（AI CUDA Engineer），这一创新性的AI智能体系统旨在自动化生产高度优化的CUDA内核，显著提升机器学习操作的运行效率。根据X平台上的最新消息，该系统通过进化的大型语言模型(LLM)驱动代码优化技术，将常见PyTorch操作的运行速度提高了10至100倍，标志着AI技术在GPU性能优化领域的重大突破。Sakana AI表示，CUDA内核作为GPU计算的核心，直接编写和优化通常需要深厚的专业知识和高技术门槛，而现有框架如PyTorch虽然使用便捷，但在性能上往