飞桨框架3.0版本近日发布核心升级,引入动静统一自动并行技术,旨在简化大模型分布式训练的开发流程,提高开发效率。

新版本支持四维甚至五维混合并行技术,通过数据并行、张量模型并行、流水线并行、分组参数切片并行等多种并行方式,有效提升大模型的分布式训练效率。针对多维混合并行开发过程的复杂性,飞桨提出了自动并行技术方案,通过张量切分的语法标记,框架能够自动推导分布式切分状态和添加通信算子,显著降低分布式训练的开发难度。

微信截图_20240822083729.png

飞桨框架3.0的自动并行原理包括分布式张量表示、切分推导、切分转换等关键环节,支持重切分能力,允许跨ProcessMesh的分布式张量转换。同时,框架提供动静统一执行模式,支持从动态图到静态图的转换,兼顾开发便捷性和运行效率。

在性能优化方面,飞桨框架3.0支持多种策略,如算子融合、流水线编排调度、通信-计算Overlap、通信融合等,通过配置选项即可开启,进一步提升分布式训练性能。

飞桨官网:https://www.paddlepaddle.org.cn/