英特尔Gaudi2技术在语言模型推理中超越英伟达

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”(FFN Fusion)的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈,显著提升大型语言模型(LLMs)的推理效率,为更广泛地部署高性能AI应用铺平道路.近年来,大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而,随着模型规模和复杂性的不断增加,其推理过程所需的计算资源也大幅增长,导致了效率瓶颈。Transformer架构是LLM的基础,其交替的注意力机制和前馈网络
前英特尔首席执行官帕特・盖尔辛格(Pat Gelsinger)近日在英伟达2025年 GPU 技术大会的《Acquired》播客中表示,英伟达的人工智能(AI)图形处理器(GPU)定价策略过高,难以支持大规模的 AI 推理任务。盖尔辛格指出,推理是部署 AI 模型的关键环节,当前行业的发展趋势应该更关注推理,而英伟达的技术在成本效益上难以满足这一需求。图源备注:图片由AI生成,图片授权服务商Midjourney他提到,英伟达用于 AI 训练的处理器价格高达现实所需的10,000倍之多。虽然盖尔辛格承认早期生成式 AI 的快速
全球市值最高的半导体公司英伟达近日宣布,将在未来四年内在美国的供应链上投资数千亿美元。根据《金融时报》的报道,英伟达预计将在电子产品领域支出约 5000 亿美元,其中很大一部分将用于美国的运营。这一重大投资计划被认为是对特朗普 “美国优先” 贸易政策的响应,同时也跟随了苹果等其他科技巨头的类似公告。英伟达首席执行官黄仁勋在接受《金融时报》采访时指出,公司已经可以通过台积电(TSMC)和富士康等供应商在美国制造其最新的系统。这一宣布恰逢公司在本周举
在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。研究表明,现有的大语言模型在推理过程中常常消耗过多的计算资源,而 MRT 的目标是让模型在给定的计算预算内,实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段,以便在探索与利用之间
英特尔近期推出了新一代 Xeon6处理器,采用性能核心设计,旨在提升数据中心工作负载的整体性能,并在人工智能(AI)处理方面实现高达两倍的性能提升。这次发布标志着英特尔在全球半导体市场中的重要一步,尤其是在公司经历了 CEO 更换与市场竞争压力之后。新的 Xeon6处理器特别适用于网络和边缘计算应用,其内置的 Intel vRANBoost 技术可以将无线接入网络(RAN)工作负载的容量提高至2.4倍。英特尔的联席首席执行官米歇尔・约翰斯顿・霍尔瑟表示,Xeon6系列在 AI 和网络性能方面具有行
今日,小米创办人、董事长兼CEO雷军在微博表示,小米首款AI专业办公笔记本REDMI Book Pro162025将于2月27日19:00发布,并且发布即开售。根据官方海报,REDMI Book Pro162025将是首批搭载第二代英特尔酷睿"Ultra 处理器,领先算力 至高96TOPS,平台 AI 算力提升150%+,疾速内存 LPDDR5X8400MT/s 超高频内存,飓风散热 整机散热系数较上代提升34.4%。
据《华尔街日报》报道,英特尔可能面临分拆的风险,因为博通和台积电正在探索可能的收购交易,这些交易可能会将这家美国芯片制造商分开。台积电目前正在考虑收购英特尔的晶圆代工服务部门的股份,同时,高通和博通也在投资以增强英特尔的制造能力。博通已经对英特尔的芯片设计和市场营销业务进行了审查,并与顾问讨论了可能的出价。然而,消息人士指出,博通在未找到合作伙伴的情况下,不太可能继续对英特尔的制造部门提出收购建议。此外,台积电正系统性地考虑收购英
近日,英特尔公司宣布其数据中心与 AI(DCAI)业务负责人贾斯汀・霍塔德(Justin Hotard)将于4月1日正式离职,接任诺基亚的首席执行官。霍塔德在英特尔担任高级副总裁及总经理的职位仅一年时间,但他已经在此期间为公司的 DCAI 业务的稳定发展做出了贡献。他在 LinkedIn 上表示,感谢英特尔团队过去一年的努力,并祝愿他们在未来的工作中取得更大的成功。霍塔德于2024年加入英特尔,接替前 DCAI 负责人桑德拉・里维拉(Sandra Rivera),后者则被任命为新成立的 Altera FPGA 业务的负责人。霍塔德
随着大语言模型(LLM)在现代人工智能应用中的广泛应用,诸如聊天机器人和代码生成器等工具依赖于这些模型的能力。然而,随之而来的推理过程中的效率问题也日益突出。尤其是在处理注意力机制时,如 FlashAttention 和 SparseAttention,面对多样化的工作负载、动态输入模式以及 GPU 资源限制时,往往显得力不从心。这些挑战加上高延迟和内存瓶颈,迫切需要更高效、灵活的解决方案,以支持可扩展和响应迅速的 LLM 推理。为了解决这一问题,来自华盛顿大学、NVIDIA、Perplexity AI 和卡内基梅
生成式语言模型在从训练到实际应用的过程中面临着许多挑战。其中一个主要问题是如何在推理阶段使模型达到最佳表现。目前的对策,如通过人类反馈的强化学习(RLHF),主要集中在提高模型的胜率上,但往往忽视了推理时的解码策略,例如 Best-of-N 采样和控制解码。这种训练目标与实际使用之间的差距,可能导致效率低下,影响输出的质量和可靠性。为了解决这些问题,谷歌 DeepMind 和谷歌研究团队开发了 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。InfAlign 将推理时的方法