Moonlight
Moonlight是一个16B参数的混合专家模型,使用Muon优化器训练,性能优异。
普通产品生产力自然语言处理模型优化
Moonlight是基于Muon优化器训练的16B参数混合专家模型(MoE),在大规模训练中表现出色。它通过添加权重衰减和调整参数更新比例,显著提高了训练效率和稳定性。该模型在多项基准测试中超越了现有模型,同时大幅减少了训练所需的计算量。Moonlight的开源实现和预训练模型为研究人员和开发者提供了强大的工具,支持多种自然语言处理任务,如文本生成、代码生成等。
Moonlight 最新流量情况
月总访问量
521149929
跳出率
35.96%
平均页面访问数
6.1
平均访问时长
00:06:29