Moonlight是基于Muon优化器训练的16B参数混合专家模型(MoE),在大规模训练中表现出色。它通过添加权重衰减和调整参数更新比例,显著提高了训练效率和稳定性。该模型在多项基准测试中超越了现有模型,同时大幅减少了训练所需的计算量。Moonlight的开源实现和预训练模型为研究人员和开发者提供了强大的工具,支持多种自然语言处理任务,如文本生成、代码生成等。