百度集团执行副总裁沈抖在今日举行的2024百度云智大会上宣布了百度百舸计算平台4.0的升级。这一新版本支持多芯混合训练与多芯适配,并在万卡集群上实现了超过99.5%的有效训练时长,显著提升了算力使用效率。
在当前算力紧缺的背景下,百舸4.0的升级将帮助企业更有效地利用计算资源,降低运营成本。升级的重点在于提升“多芯混合训练”能力,使得在万卡规模的集群上实现了95%的训练效能,达到行业领先水平。
此外,百舸4.0还实现了秒级部署,将万卡集群的运行准备时间从数周缩短至仅1小时,极大提升了部署效率,缩短了业务上线周期。针对大模型训练过程中频繁出现的故障,百舸4.0升级了故障检测手段与自动容错机制,有效降低了故障发生频率,减少了故障处置时间,确保了超过99.5%的有效训练时长。
在模型推理方面,百舸4.0在速度和成本上进行了优化,尤其在长文本推理中,效率提升超过一倍,满足了日益增长的市场需求。