淘天集团联合爱橙科技正式开源了大模型训练框架 Megatron-LLaMA,旨在提高大语言模型训练性能,降低训练成本。测试显示,该框架在 32 卡训练上获得 176% 的加速效果,并具有线性的扩展性。框架已在 GitHub 上开源,将持续关注社区发展,推进自适应配置和更多模型支持。同时,Megatron-LLaMA 改进了梯度聚合机制,优化了反向传播流程。这一开源框架降低了训练大模型的门槛,为开源社区做出了重要贡献。