据报道,苹果公司正在与芯片巨头博通合作,研发一款专门用于支持其操作系统中 AI 服务和功能的定制服务器处理器。这一项目代号为 “Baltra”,预计将在2026年进入生产阶段。目前,关于这个项目的具体细节仍然相对较少。在今年的开发者大会上,苹果软件工程高级副总裁克雷格・费德里希曾表示,苹果的智能技术将同时运行于本地设备和私人云服务器上,而这些服务器将由苹果自家的硅芯片驱动。苹果自成立以来便一直致力于设计自家的基于 Arm 架构的芯片,因此开发专用于生成 AI 的
在 AI 的世界里,"大力出奇迹" 似乎成了金科玉律。模型越大,数据越多,算力越强,仿佛就能越接近智能的圣杯。然而,这狂飙突进的背后,也隐藏着巨大的成本和能耗压力。为了让 AI 训练更高效,科学家们一直在寻找更强大的优化器,就像一位教练,引导模型的参数不断优化,最终达到最佳状态。AdamW 作为 Transformer 预训练的默认优化器,多年来一直是业界标杆。然而,面对日益庞大的模型规模,AdamW 也开始显得力不从心。难道就没有一种方法,既能提升训练速度,又能降低能耗吗?别急
戴尔科技公司(Dell Technologies,股票代码:DELL)近日股价上涨,原因是摩根士丹利(Morgan Stanley)分析师埃里克・伍德林(Erik Woodring)对该公司的目标价进行了上调。此次调整主要基于对戴尔人工智能(AI)服务器销售增长的乐观预期。摩根士丹利将戴尔的目标股价从136美元提高至154美元,维持了对戴尔的 “增持” 评级。伍德林预计,戴尔的 AI 服务器销售将在2026财年达到约200亿美元,这一数字较之前的预期增长了56%。这一增长的预测意味着,戴尔的每股收益可能达到10.50美元,比华尔街目前的预
大模型(LLM)如GPT、Llama等在人工智能领域掀起了一场革命,但如何高效地训练这些庞大的模型并使其符合人类价值观仍然是一个难题。强化学习与人类反馈(RLHF)作为一种重要的LLM训练方法,近年来得到广泛应用,但传统的RLHF框架在灵活性、效率和可扩展性方面存在局限性。为解决这些问题,字节跳动豆包大模型团队开源了名为HybridFlow的RLHF框架,为LLM训练带来了新的可能性。RLHF通常包含三个阶段:首先,actor模型根据输入的提示生成文本;然后,critic模型、reference模型和reward模型对生成