在人工智能训练领域,Nvidia 的显卡地位几乎无人能敌,但在 AI 推理方面,竞争对手们似乎开始迎头赶上,尤其是在能效方面。尽管 Nvidia 最新的黑威尔芯片性能强劲,但能否继续保持领先尚未可知。
今天,ML Commons 公布了最新的 AI 推理竞赛结果 ——MLPerf 推理 v4.1。这一轮比赛首次有 AMD 的 Instinct 加速器、谷歌的 Trillium 加速器、加拿大初创公司 UntetherAI 的芯片以及 Nvidia 的黑威尔芯片参赛。还有两家公司 Cerebras 和 FuriosaAI 虽然推出了新的推理芯片,但并未提交 MLPerf 的测试。
MLPerf 的结构就像一场奥林匹克比赛,有多个项目和子项目。其中 “数据中心封闭” 类别的参赛者最多。与开放类别不同,封闭类别要求参赛者在不显著修改软件的情况下,直接在给定模型上进行推理。数据中心类别主要测试批量处理请求的能力,而边缘类别则侧重于降低延迟。
每个类别下有9个不同的基准测试,涵盖各种 AI 任务,包括热门的图像生成(想想 Midjourney)和大型语言模型的问答(例如 ChatGPT),还有一些重要但鲜为人知的任务,比如图像分类、物体检测和推荐引擎。
这一轮比赛增加了一个新基准 ——“专家混合模型”。这是一种越来越流行的语言模型部署方法,将一个语言模型分割成多个独立的小模型,每个模型针对特定任务进行微调,例如日常对话、解决数学问题或编程辅助。通过将每个查询分配给相应的小模型,资源利用得以减少,从而降低成本并提高吞吐量,AMD 的高级技术人员 Miroslav Hodak 如是说。
在热门的 “数据中心封闭” 基准测试中,获胜的仍然是基于 Nvidia H200GPU 和 GH200超级芯片的提交,它们将 GPU 和 CPU 结合在一个包中。然而,仔细分析结果会发现一些有趣的细节。某些参赛者使用了多个加速器,而另一些则只使用了一个。如果我们按加速器数量归一化每秒查询数,并保留每种加速器类型中表现最佳的提交,结果更加扑朔迷离。需要指出的是,这种方法忽略了 CPU 和互连的作用。
在每个加速器的基础上,Nvidia 的黑威尔在大型语言模型问答任务上表现优异,速度比之前的芯片迭代提升了2.5倍,这是唯一一个它提交的基准测试。Untether AI 的 speedAI240预览芯片在其唯一提交的图像识别任务上表现几乎与 H200持平。谷歌的 Trillium 在图像生成任务上表现略低于 H100和 H200,而 AMD 的 Instinct 在大型语言模型问答任务上则表现相当于 H100。
黑威尔的成功部分源于它能够使用4位浮点精度进行大型语言模型的运行。Nvidia 和竞争对手们一直在努力降低变换模型(例如 ChatGPT)中数据表示的位数,以加快计算速度。Nvidia 在 H100中引入了8位数学,而这次的提交则是4位数学在 MLPerf 基准测试中的首次展示。
使用如此低精度数字的最大挑战在于保持准确性,Nvidia 的产品营销总监 Dave Salvator 表示。为了在 MLPerf 提交中维持高准确率,Nvidia 团队在软件方面进行了大量创新。
此外,黑威尔的内存带宽几乎翻倍,达到了每秒8太字节,而 H200则是4.8太字节。
Nvidia 的黑威尔提交使用了单个芯片,但 Salvator 表示它设计用于网络和扩展,并将在与 Nvidia 的 NVLink 互连结合使用时表现最佳。黑威尔 GPU 支持多达18个 NVLink100GB 每秒的连接,总带宽达到1.8太字节每秒,几乎是 H100的互连带宽的两倍。
Salvator 认为,随着大型语言模型的规模不断扩大,即使是推理也将需要多 GPU 平台来满足需求,而黑威尔正是为这种情况而设计的。“黑威尔是一个平台,”Salvator 说。
Nvidia 将其黑威尔芯片系统提交到预览子类别,意味着它尚未上市,但预计在下次 MLPerf 发布前会可用,大约在六个月后。
在每个基准测试中,MLPerf 还包括能量测量部分,系统地测试每个系统在执行任务时的实际功耗。这一轮的主要比赛(数据中心封闭能量类别)仅有 Nvidia 和 Untether AI 两家提交者参与。虽然 Nvidia 参与了所有基准测试,但 Untether 只在图像识别任务中提交了结果。
Untether AI 在这方面表现出色,成功实现了卓越的能效。他们的芯片采用了一种名为 “内存计算” 的方法。Untether AI 的芯片是由一组内存单元构成,附近有小型处理器与之相邻。每个处理器并行工作,与邻近的内存单元中的数据同时处理,从而显著减少了在内存和计算核心之间传输模型数据所花费的时间和能量。
“我们发现,进行 AI 工作负载时,90% 的能量消耗在于将数据从 DRAM 移动到缓存处理单元,”Untether AI 的产品副总裁 Robert Beachler 表示。“因此,Untether 的做法是将计算移动到数据附近,而不是将数据移动到计算单元。”
这一方法在 MLPerf 的另一个子类别中表现尤为出色:边缘封闭。这一类别专注于更为实际的用例,比如工厂的机器检测、引导视觉机器人和自动驾驶车辆 —— 这些应用对能效和快速处理有着严格的要求,Beachler 解释道。
在图像识别任务中,Untether AI 的 speedAI240预览芯片的延迟性能比 Nvidia 的 L40S 快了2.8倍,吞吐量(每秒样本数)也提高了1.6倍。初创公司还在这个类别中提交了功耗结果,但 Nvidia 的竞争者并没有,因此很难进行直接比较。然而,Untether AI 的 speedAI240预览芯片的标称功耗为150瓦,而 Nvidia 的 L40S 则为350瓦,显示出其在功耗方面具有2.3倍的优势,同时延迟表现也更佳。
虽然 Cerebras 和 Furiosa 没有参加 MLPerf,但它们也分别发布了新芯片。Cerebras 在斯坦福大学的 IEEE Hot Chips 会议上揭晓了其推理服务。总部位于加利福尼亚州阳光谷的 Cerebras 制造的巨型芯片,尺寸大到硅晶圆所允许的极限,从而避免了芯片之间的互连,并极大提高了设备的内存带宽,主要用于训练巨型神经网络。现在,他们已经升级了最新的计算机 CS3以支持推理。
尽管 Cerebras 没有提交 MLPerf,但该公司声称其平台在每秒生成的 LLM 令牌数量上超越了 H100的7倍和竞争对手 Groq 芯片的2倍。“今天,我们处于生成 AI 的拨号时代,”Cerebras 首席执行官兼联合创始人 Andrew Feldman 表示。“这都是因为存在内存带宽瓶颈。无论是 Nvidia 的 H100还是 AMD 的 MI300或 TPU,它们都使用相同的外部内存,导致相同的限制。我们打破了这一障碍,因为我们采用的是晶圆级设计。”
Hot Chips 大会上,来自首尔的 Furiosa 也展示了其第二代芯片 RNGD(发音为 “叛逆者”)。Furiosa 的新芯片以其张量收缩处理器(TCP)架构为特点。在 AI 工作负载中,基本的数学功能是矩阵乘法,通常在硬件中作为一个原语实现。然而,矩阵的大小和形状,即更广泛的张量,可以有很大的不同。RNGD 实现了这种更为通用的张量乘法作为原语。“在推理过程中,批量大小变化很大,因此充分利用给定张量形状的固有并行性和数据重用至关重要,”Furiosa 创始人兼首席执行官 June Paik 在 Hot Chips 上表示。
尽管 Furiosa 没有 MLPerf,但他们在内部测试中将 RNGD 芯片与 MLPerf 的 LLM 摘要基准进行了比较,结果表现与 Nvidia 的 L40S 芯片相当,但功耗仅为185瓦,而 L40S 则为320瓦。Paik 表示,随着进一步的软件优化,性能将会提升。
IBM 也宣布推出其新的 Spyre 芯片,专为企业生成 AI 工作负载而设计,预计将在2025年第一季度上市。
显然,AI 推理芯片市场在可预见的未来将会热闹非凡。
参考资料:https://spectrum.ieee.org/new-inference-chips