腾讯云最近推出了升级版的星脉网络2.0,旨在提高大模型训练的效率。在之前的版本中,大型模型的计算结果同步通信时间占据了50% 以上的比例,导致效率低下。新版本的星脉网络2.0在多个方面进行了升级:
1. 支持单集群10万卡组网,规模翻倍,网络通信效率提升60%,大模型训练效率提升20%,故障定位从天级降低至分钟级。
2. 自研交换机、光模块、网卡等网络设备升级,基础设施更加可靠,支持单集群10万卡 GPU 以上的规模。
3. 全新通信协议 TiTa2.0部署在网卡上,拥塞算法升级为主动拥塞控制算法,通信效率提升30%,大模型训练效率提升10%。
4. 高性能集合通信库 TCCL2.0采用 NVLINK+NET 异构并行通信,实现数据的并行传输,同时具备 Auto-Tune Network Expert 自适应算法,提升通信性能30%,大模型训练效率提升10%。
5. 新增腾讯独家技术灵境仿真平台,实现全面监控集群网络,精确定位 GPU 节点问题,将万卡级训练故障定位时间从天级降低至分钟级。
通过这些升级,星脉网络的通信效率提升60%,大模型训练效率提升20%,故障定位精准度也得到了提升。这些改进将有助于提高大型模型训练的效率和性能,让昂贵的 GPU 资源得到更充分的利用。