Moonlight é um modelo de especialista misto (MoE) com 16 bilhões de parâmetros, treinado com o otimizador Muon, que demonstra excelente desempenho em treinamento em larga escala. Através da adição de decaimento de peso e do ajuste da proporção de atualização de parâmetros, a eficiência e a estabilidade do treinamento foram significativamente melhoradas. O modelo superou modelos existentes em vários testes de referência, reduzindo drasticamente a quantidade de computação necessária para o treinamento. A implementação de código aberto e o modelo pré-treinado do Moonlight oferecem ferramentas poderosas para pesquisadores e desenvolvedores, suportando diversas tarefas de processamento de linguagem natural, como geração de texto e geração de código.