在人工智能发展日新月异的今天,一家名为Etched的公司正在押上一切,赌注于一种被称为Transformer的AI架构。该公司近日宣布推出全球首款专为Transformer设计的专用集成电路(ASIC)芯片——Sohu,声称其性能远超目前市面上的任何GPU,将为AI领域带来革命性变革。
Transformer架构主导AI领域
Etched公司在2022年做出了一个大胆预测:Transformer架构将主导AI世界。事实证明,他们的判断是正确的。如今,从ChatGPT到Sora,从Gemini到Stable Diffusion3,每一个最先进的AI模型都采用了Transformer架构。正是基于这一判断,Etched公司花费两年时间开发出了Sohu芯片。
Sohu芯片通过将Transformer架构直接烧录到硬件中,实现了前所未有的性能提升。虽然这意味着Sohu无法运行大多数传统AI模型,如Instagram广告背后的DLRM、蛋白质折叠模型AlphaFold2或早期的图像模型Stable Diffusion2,但对于Transformer模型而言,Sohu的速度远超其他任何芯片。
性能优势显著
据Etched公司介绍,一台配备8个Sohu芯片的服务器在运行Llama70B模型时,可以实现每秒处理超过50万个token的惊人速度。这一性能比英伟达即将推出的下一代Blackwell (B200) GPU还要快上一个数量级,而成本却更低。
具体而言,一台8xSohu服务器可以替代160个H100GPU。这意味着使用Sohu芯片可以大幅降低AI模型的运行成本,同时显著提高处理速度。
押注背后的逻辑
Etched公司之所以如此坚定地押注Transformer架构,是基于他们对AI发展趋势的深刻洞察。公司认为,规模化是实现超人类智能的关键。过去五年里,AI模型在大多数标准化测试中已经超越了人类,而这主要归功于计算能力的大幅提升。例如,Meta公司在训练Llama400B模型时使用的计算资源是OpenAI训练GPT-2时的5万倍。
然而,继续扩大规模面临着巨大挑战。下一代数据中心的成本可能超过一个小国的GDP。在当前的发展速度下,我们的硬件、电网和财力都难以跟上。这正是Sohu芯片的机会所在。
专用芯片的必然性
Etched公司认为,随着摩尔定律放缓,提高性能的唯一途径就是专业化。在Transformer架构主导AI领域之前,许多公司都在研发灵活的AI芯片和GPU,以应对各种不同的架构。但现在,随着市场对Transformer推理的需求从约5000万美元激增至数十亿美元,加上AI模型架构的趋同,专用芯片的出现成为必然。
当模型的训练成本达到10亿美元,推理成本超过100亿美元时,即使1%的性能提升也足以证明5000万至1亿美元的定制芯片项目是值得的。而实际上,ASIC的性能优势远不止于此。
Sohu芯片的工作原理
Sohu芯片之所以能够实现如此高的性能,是因为它专门为Transformer架构优化。通过移除大部分控制流逻辑,Sohu可以容纳更多的数学运算单元。这使得Sohu的FLOPS利用率超过90%,而GPU上运行TRT-LLM时的利用率仅为30%左右。
Etched公司解释说,由于GPU的大部分面积都用于保证可编程性,专门针对Transformer的设计可以容纳更多计算单元。事实上,H100GPU的800亿晶体管中,只有3.3%用于矩阵乘法。而Sohu通过专注于Transformer,可以在芯片上容纳更多的FLOPS,而无需降低精度或使用稀疏性技术。
软件生态系统
尽管Sohu芯片在硬件层面实现了重大突破,但软件生态系统同样至关重要。与GPU和TPU相比,Sohu的软件开发相对简单,因为它只需要支持Transformer架构。Etched公司承诺将开源从驱动程序到内核再到服务堆栈的所有软件,这将大大便利开发者使用和优化Sohu芯片。
未来展望
如果Etched公司的押注成功,Sohu芯片将彻底改变AI行业格局。目前,许多AI应用面临着性能瓶颈。例如,Gemini需要超过60秒来回答一个关于视频的问题,编码代理的成本高于软件工程师且需要数小时才能完成任务,视频模型每秒只能生成一帧画面。
Sohu芯片有望将AI模型的速度提高20倍,同时大幅降低成本。这意味着实时视频生成、通话、智能代理和搜索等应用将成为可能。Etched公司已经开始接受早期用户申请Sohu开发者云服务,并积极招募人才加入他们的团队。
AI计算能力的突破可能带来深远影响,Etched公司的Sohu芯片无疑值得我们密切关注。随着更多细节的披露和实际应用的展开,我们将能更好地评估这项技术的潜力及其对AI领域的影响。