Megatron-LLaMA: Framework de Treinamento de Modelos de Linguagem Grandes de Código Aberto

A Taotian Group, em conjunto com a Ai Cheng Technology, lançou oficialmente o framework de treinamento de modelos de linguagem grandes Megatron-LLaMA, com o objetivo de melhorar o desempenho e reduzir o custo de treinamento desses modelos. Testes demonstram uma aceleração de 176% no treinamento com 32 placas de vídeo, além de escalabilidade linear. O framework já está disponível no GitHub sob licença de código aberto, e continuará a receber atenção e desenvolvimento da comunidade, com foco em configurações adaptáveis e suporte a mais modelos.

Além disso, o Megatron-LLaMA aprimora o mecanismo de agregação de gradiente e otimiza o processo de retropropagação. Este framework de código aberto reduz a barreira de entrada para o treinamento de modelos de linguagem grandes, representando uma contribuição significativa para a comunidade de código aberto.