淘天集团联合爱橙科技开源了大模型训练框架 Megatron-LLaMA,旨在提升大语言模型的训练性能,降低训练成本,并与 LLaMA 社区保持兼容性。框架在 32 卡训练上能够取得 176% 的加速,对网络不稳定也表现出高容忍度。Megatron-LLaMA 将关注自适应最优配置选择、模型结构改动的支持以及在不同硬件环境下的极致性能训练解决方案。