No campo da inteligência artificial, o treinamento de grandes modelos de linguagem (LLMs) tornou-se uma direção importante para impulsionar o progresso tecnológico. No entanto, com o aumento constante do tamanho dos modelos e dos conjuntos de dados, os métodos de otimização tradicionais — especialmente o AdamW — estão mostrando suas limitações. Os pesquisadores enfrentam uma série de desafios, incluindo altos custos computacionais, instabilidade no treinamento, desaparecimento ou explosão de gradientes, atualizações inconsistentes da matriz de parâmetros e altas demandas de recursos em ambientes distribuídos. Portanto, há uma necessidade urgente de técnicas de otimização mais eficientes e estáveis para lidar com essas complexidades.
Para resolver esses desafios, a Moonshot AI e a Universidade da Califórnia, Los Angeles (UCLA), desenvolveram em conjunto o Moonlight, um modelo Mixture-of-Expert (MoE) que utiliza o otimizador Muon. O Moonlight oferece duas configurações: uma com 3 bilhões de parâmetros ativados e outra com 16 bilhões de parâmetros totais, treinados com 5,7 trilhões de tokens. A inovação do otimizador Muon reside no uso do método iterativo de Newton-Schulz para ortogonalização de matrizes, garantindo a uniformidade das atualizações de gradiente no espaço de parâmetros do modelo. Essa melhoria oferece uma alternativa promissora ao AdamW tradicional, aumentando a eficiência e a estabilidade do treinamento.
Em termos de detalhes técnicos, o Moonlight apresenta duas adaptações cruciais ao otimizador Muon. Primeiro, introduz a técnica de decaimento de peso (weight decay) para controlar o crescimento dos pesos durante o treinamento de modelos grandes com muitos tokens. Segundo, a magnitude da atualização para cada parâmetro é calibrada, sendo dimensionada de acordo com a raiz quadrada da maior dimensão da matriz de pesos, alcançando assim atualizações consistentes.
Através da avaliação empírica do Moonlight, os pesquisadores descobriram que ele supera os modelos treinados com o AdamW tradicional em checkpoints intermediários. Por exemplo, em tarefas de compreensão da linguagem, o Moonlight obteve pontuações mais altas no benchmark MMLU. Em tarefas de geração de código, a melhoria de desempenho foi ainda mais significativa, indicando que o mecanismo de otimização do Muon contribui positivamente para o desempenho da tarefa.
A implementação bem-sucedida do projeto Moonlight estabelecerá um novo padrão para o treinamento de grandes modelos de linguagem. A disponibilização do código-fonte do otimizador Muon, bem como dos modelos pré-treinados e checkpoints intermediários, espera-se que promova pesquisas adicionais em técnicas de otimização escaláveis.
github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file
huggingface:https://huggingface.co/moonshotai/Moonlight-16B-A3B
artigo:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Destaques:
🌟 O modelo Moonlight é um modelo Mixture-of-Expert desenvolvido em conjunto pela Moonshot AI e UCLA, oferecendo configurações com 3 bilhões e 16 bilhões de parâmetros, treinados com 5,7 trilhões de tokens.
⚙️ O otimizador Muon, através do método iterativo de Newton-Schulz e da técnica de decaimento de peso, melhora significativamente a eficiência e a estabilidade do treinamento de modelos grandes.
📈 Resultados empíricos mostram que o Moonlight supera os modelos treinados com o AdamW tradicional em várias tarefas, exibindo melhor capacidade de compreensão da linguagem e geração de código.