zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2025-02-24 15:53:10
.
AIbase
.
15.7k
月之暗面推出新优化器Muon,计算效率大幅提升
近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。然而,随着模型规模的扩大,原始 Muon 在性能提升上遭遇瓶颈。为此,月之暗面团队进行了深入的技术改进,主要包括添加权重衰减和一致的均方根(RMS)更新,以支持在大规模训
2025-02-24 09:25:15
.
AIbase
.
15.6k
月之暗面联手UCLA推新模型Mixture-of-Expert,提升语言模型训练效率
在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。为了解决这些挑战,Moonshot AI (月之暗面)与加州大学洛杉矶分校(UCLA)联合开发了 Moonlight,一个使用 Muon 优
2024-11-27 16:51:47
.
AIbase
.
13.5k
"佛系"优化器C-AdamW:一行代码,让大模型训练速度狂飙1.47倍!
在 AI 的世界里,"大力出奇迹" 似乎成了金科玉律。模型越大,数据越多,算力越强,仿佛就能越接近智能的圣杯。然而,这狂飙突进的背后,也隐藏着巨大的成本和能耗压力。为了让 AI 训练更高效,科学家们一直在寻找更强大的优化器,就像一位教练,引导模型的参数不断优化,最终达到最佳状态。AdamW 作为 Transformer 预训练的默认优化器,多年来一直是业界标杆。然而,面对日益庞大的模型规模,AdamW 也开始显得力不从心。难道就没有一种方法,既能提升训练速度,又能降低能耗吗?别急