Megatron-LM 是由 NVIDIA 应用深度学习研究团队开发的一种强大的大规模 Transformer 模型。该产品用于大规模训练 Transformer 语言模型的持续研究。我们使用混合精度,高效的模型并行和数据并行,以及多节点的 Transformer 模型(如 GPT、BERT 和 T5)的预训练。