"佛系"优化器C-AdamW：一行代码，让大模型训练速度狂飙1.47倍！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月27号 16:51

202

在 AI 的世界里，"大力出奇迹" 似乎成了金科玉律。模型越大，数据越多，算力越强，仿佛就能越接近智能的圣杯。然而，这狂飙突进的背后，也隐藏着巨大的成本和能耗压力。

为了让 AI 训练更高效，科学家们一直在寻找更强大的优化器，就像一位教练，引导模型的参数不断优化，最终达到最佳状态。AdamW 作为 Transformer 预训练的默认优化器，多年来一直是业界标杆。然而，面对日益庞大的模型规模，AdamW 也开始显得力不从心。

难道就没有一种方法，既能提升训练速度，又能降低能耗吗?别急，一个全华人团队带着他们的 "秘密武器" C-AdamW 来啦!

C-AdamW 全称 Cautious AdamW，中文名 "谨慎 AdamW"，是不是听起来就很 "佛系"?没错，C-AdamW 的核心思想就是 "三思而后行"。

想象一下，模型的参数就像一群精力旺盛的小朋友，总想四处乱跑。AdamW 就像一位尽职尽责的老师，努力引导他们朝着正确的方向前进。但有时候，小朋友们会过于兴奋，跑错了方向，反而浪费了时间和精力。

这时候，C-AdamW 就像一位智慧的长者，戴着一副 "火眼金睛"，能够精准识别更新方向是否正确。如果方向错了，C-AdamW 就会果断喊停，避免模型在错误的道路上越走越远。

这种 "谨慎" 的策略，保证了每次更新都能有效地降低损失函数，从而加快模型的收敛速度。实验结果表明，C-AdamW 在 Llama 和 MAE 预训练中，将训练速度提升至1.47倍!

更重要的是，C-AdamW 几乎没有额外的计算开销，只需对现有代码进行一行简单的修改即可实现。这意味着，开发者们可以轻松地将 C-AdamW 应用到各种模型训练中，享受 "速度与激情"!

C-AdamW 的 "佛系" 之处，还在于它保留了 Adam 的哈密顿函数，并在李雅普诺夫分析下不破坏收敛性保证。这意味着，C-AdamW 不仅速度更快，而且稳定性也得到了保障，不会出现训练崩溃等问题。

当然，"佛系" 不代表 "不思进取"。研究团队表示，他们将继续探索更丰富的 ϕ 函数，并在特征空间而非参数空间中应用掩码，以进一步提升 C-AdamW 的性能。

可以预见，C-AdamW 将成为深度学习领域的新宠，为大模型训练带来革命性的改变!

论文地址:https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim

谷歌发布王炸推理模型Gemini2.0 Flash Thinking，挑战 OpenAI o1

在人工智能领域竞争日益激烈的背景下，谷歌近日宣布推出 Gemini2.0 Flash Thinking模型。这一多模态推理模型具备快速且透明的处理能力，能够应对复杂问题。谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:“这是我们迄今为止最具深度的模型。” 根据开发者文档，Gemini2的Flash Thinking比基础版本的 Gemini2.0Flash模型具备更强的推理能力。新模型支持32，000个输入标记（大约50到60页文本），输出响应可以达到8，000个标记。谷歌在其 AI 工作室的侧边面板中表示，这一模型特别适用于 “多模态

豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

在2024年12月18日的火山引擎 FORCE 原动力大会上，火山引擎宣布对豆包大模型家族进行全面升级，并重磅发布了全新的视觉理解模型。火山引擎总裁谭待表示，豆包大模型的日均 tokens 使用量在过去几个月中迅猛增长，达到了超过4万亿，相较于5月发布时增长了33倍。这一增长趋势显示出豆包大模型在多个应用场景中的广泛使用。本次，火山引擎通过推出视觉理解模型，使得用户能够同时输入文本和图像的问题，模型能够综合理解并给出准确的回答。这一创新将大大简化应用的开发流程，并激

开发者狂喜！Anthropic发布提示词优化新功能，自动优化效率提升30%

Anthropic近日在其控制台（Console）推出了重要更新，为开发者带来了提示词优化和示例管理的全新功能。这一升级将帮助开发者更轻松地应用提示工程最佳实践，打造更可靠的AI应用。提示词质量直接影响着AI模型的输出效果。然而，不同模型平台的提示词最佳实践各不相同，优化过程往往耗时费力。针对这一痛点，Anthropic推出的提示词优化器可以自动运用先进的工程技术来完善现有提示词，特别适合优化为其他AI模型编写的提示词或手写提示词。具体来说，优化器通过五大方法来增强提示词

李彦宏：大模型幻觉问题基本解决不再胡说八道

在2024世界百度大会上，百度创始人李彦宏带来了一系列引人瞩目的AI领域最新进展。他指出，过去两年大模型技术最显著的突破在于"幻觉"问题的基本解决，这标志着AI回答的准确性获得质的飞跃，使其从"一本正经地胡说八道"转变为可靠的智能助手。会上，李彦宏重点介绍了百度最新推出的检索增强文生图技术iRAG。这项技术创新性地整合了百度搜索平台积累的海量图片资源和先进的基础模型能力，能够生成超高真实度的图像。李彦宏表示，iRAG的整体效果已经远超传统文生图系统，成功消

AI新闻资讯

"佛系"优化器C-AdamW：一行代码，让大模型训练速度狂飙1.47倍！

AIbase基地

相关AI新闻推荐

谷歌发布王炸推理模型Gemini2.0 Flash Thinking，挑战 OpenAI o1

​豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

开发者狂喜！Anthropic发布提示词优化新功能，自动优化效率提升30%

李彦宏：大模型幻觉问题基本解决 不再胡说八道

豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

李彦宏：大模型幻觉问题基本解决不再胡说八道