O grupo Taobao, em conjunto com a Ai Cheng Technology, lançou o framework de treinamento de modelos grandes Megatron-LLaMA, com o objetivo de melhorar o desempenho do treinamento de modelos de linguagem grandes, reduzir os custos de treinamento e manter a compatibilidade com a comunidade LLaMA. O framework consegue uma aceleração de 176% no treinamento com 32 placas, demonstrando alta tolerância a instabilidades de rede. O Megatron-LLaMA focará na seleção de configurações ótimas adaptativas, suporte a modificações na estrutura do modelo e soluções de treinamento de alto desempenho em diferentes ambientes de hardware.
Grupo Taobao e Ai Cheng Technology lançam framework de treinamento de modelo de linguagem grande Megatron-LLaMA de código aberto

机器之心
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.