O grupo Taobao, em conjunto com a Ai Cheng Technology, lançou o framework de treinamento de modelos grandes Megatron-LLaMA, com o objetivo de melhorar o desempenho do treinamento de modelos de linguagem grandes, reduzir os custos de treinamento e manter a compatibilidade com a comunidade LLaMA. O framework consegue uma aceleração de 176% no treinamento com 32 placas, demonstrando alta tolerância a instabilidades de rede. O Megatron-LLaMA focará na seleção de configurações ótimas adaptativas, suporte a modificações na estrutura do modelo e soluções de treinamento de alto desempenho em diferentes ambientes de hardware.