腾讯近日发布了自研星脉网络2.0版本,这一重大升级为大规模人工智能模型训练带来了显著的性能提升。新版本在网络规模、硬件性能、通信协议和故障诊断等多个方面都实现了突破。
据了解,网络规模方面,星脉网络2.0支持单集群10万卡组网,为大规模AI训练提供了强大的基础设施支持。这一扩展为未来更大规模的AI模型训练奠定了基础。
图源备注:图片由AI生成,图片授权服务商Midjourney
在硬件升级方面,腾讯自研交换机容量从25.6T提升到51.2T,实现了容量翻倍。同时,自研硅光模块速率从200G升级到400G,速率也提升了一倍。新版本还搭载了自研算力网卡,使整机通信带宽达到3.2T,居业界领先水平。这些硬件升级为网络性能的大幅提升提供了坚实的基础。
通信协议方面,腾讯推出了全新的TiTa2.0协议,其部署位置从交换机转移到了网卡上。同时,拥塞算法也升级为主动拥塞控制算法。这些优化使得通信效率提升了30%,大模型训练效率提升10%。
此外,腾讯还推出了全新的高性能集合通信库TCCL2.0。该库采用NVLINK+NET异构并行通信技术,实现了数据的并行传输。配合Auto-Tune Network Expert自适应算法,系统可以根据机型、网络规模、模型算法等差异,自动调整各种参数。这一升级使得通信性能再次提升30%,大模型训练效率额外提升10%。
值得注意的是,TiTa与TCCL的升级效果叠加,使得星脉网络的通信效率总共提升了60%,大模型训练效率总体提升20%。这一显著的性能提升,将大大加速AI模型的训练过程,为研究人员和开发者提供更高效的工作环境。