Moonlight es un modelo de experto mixto (MoE) de 16B parámetros entrenado con el optimizador Muon, que destaca en el entrenamiento a gran escala. Al añadir la descomposición de peso y ajustar la proporción de actualización de parámetros, se ha mejorado significativamente la eficiencia y estabilidad del entrenamiento. Este modelo supera a los modelos existentes en varias pruebas de referencia, reduciendo drásticamente la cantidad de cómputo necesaria para el entrenamiento. La implementación de código abierto y el modelo preentrenado de Moonlight ofrecen a investigadores y desarrolladores herramientas potentes que soportan diversas tareas de procesamiento del lenguaje natural, como la generación de texto y la generación de código.