腾讯发布星脉网络2.0 大幅提升AI大模型训练效率

腾讯近日发布了自研星脉网络2.0版本，这一重大升级为大规模人工智能模型训练带来了显著的性能提升。新版本在网络规模、硬件性能、通信协议和故障诊断等多个方面都实现了突破。

据了解，网络规模方面，星脉网络2.0支持单集群10万卡组网，为大规模AI训练提供了强大的基础设施支持。这一扩展为未来更大规模的AI模型训练奠定了基础。

互联网大数据2

图源备注：图片由AI生成，图片授权服务商Midjourney

在硬件升级方面，腾讯自研交换机容量从25.6T提升到51.2T，实现了容量翻倍。同时，自研硅光模块速率从200G升级到400G，速率也提升了一倍。新版本还搭载了自研算力网卡，使整机通信带宽达到3.2T，居业界领先水平。这些硬件升级为网络性能的大幅提升提供了坚实的基础。

通信协议方面，腾讯推出了全新的TiTa2.0协议，其部署位置从交换机转移到了网卡上。同时，拥塞算法也升级为主动拥塞控制算法。这些优化使得通信效率提升了30%，大模型训练效率提升10%。

此外，腾讯还推出了全新的高性能集合通信库TCCL2.0。该库采用NVLINK+NET异构并行通信技术，实现了数据的并行传输。配合Auto-Tune Network Expert自适应算法，系统可以根据机型、网络规模、模型算法等差异，自动调整各种参数。这一升级使得通信性能再次提升30%，大模型训练效率额外提升10%。

值得注意的是，TiTa与TCCL的升级效果叠加，使得星脉网络的通信效率总共提升了60%，大模型训练效率总体提升20%。这一显著的性能提升，将大大加速AI模型的训练过程，为研究人员和开发者提供更高效的工作环境。

AI新闻资讯

腾讯发布星脉网络2.0 大幅提升AI大模型训练效率

AIbase