Recentemente, o campo da inteligência artificial foi abalado novamente. A Moonshot anunciou o lançamento de código aberto de seu novo otimizador, Muon, que conseguiu dobrar a eficiência computacional em comparação com o AdamW tradicional. O lançamento deste novo otimizador coincide com a iminente publicação em código aberto de vários repositórios de código pela DeepSeek, gerando grande interesse e discussão na indústria.

image.png

O otimizador Muon foi inicialmente proposto por pesquisadores da OpenAI, como Keller Jordan, em 2024, e mostrou excelente desempenho no treinamento de modelos em pequena escala. No entanto, com o aumento do tamanho do modelo, o Muon original encontrou gargalos de desempenho. Para solucionar isso, a equipe da Moonshot fez melhorias técnicas significativas, incluindo a adição de decaimento de peso e atualizações de raiz quadrada média (RMS) consistentes, permitindo que o Muon seja usado em treinamento em larga escala sem necessidade de ajuste de hiperparâmetros.

O novo otimizador Muon foi usado no recém-lançado modelo Moonlight, um modelo de especialista misto (MoE) com 3B/16B parâmetros. Após o treinamento com 5,7 trilhões de tokens, seu desempenho foi significativamente aprimorado, tornando-se um modelo de "fronteira de Pareto". Este resultado significa que, com o mesmo orçamento de treinamento, o modelo Moonlight supera todos os outros modelos em todos os indicadores de desempenho.

A Moonshot também lançou o código de implementação do Muon, juntamente com checkpoints de pré-treinamento e intermediários, fornecendo recursos valiosos para pesquisas futuras. Estudos mostram que o otimizador Muon requer apenas 52% dos FLOPs do AdamW durante o treinamento, o que comprova ainda mais sua alta eficiência no treinamento de modelos de linguagem em larga escala.

O otimizador Muon da Moonshot não apenas supera os otimizadores tradicionais em desempenho, mas também injeta nova vitalidade no desenvolvimento de toda a área de IA por meio do código aberto. Com a participação crescente de pesquisadores e desenvolvedores, espera-se que este otimizador impulsione ainda mais o progresso da tecnologia de inteligência artificial.

Endereço do artigo:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf