Light-R1-14B-DS
一款开源的14B参数量的数学模型,通过强化学习训练,性能卓越。
普通产品生产力强化学习数学模型
Light-R1-14B-DS 是由北京奇虎科技有限公司开发的开源数学模型。该模型基于 DeepSeek-R1-Distill-Qwen-14B 进行强化学习训练,在 AIME24 和 AIME25 数学竞赛基准测试中分别达到了 74.0 和 60.2 的高分,超越了许多 32B 参数量的模型。它在轻量级预算下成功实现了对已经长链推理微调模型的强化学习尝试,为开源社区提供了一个强大的数学模型工具。该模型的开源有助于推动自然语言处理在教育领域的应用,特别是数学问题解决方面,为研究人员和开发者提供了宝贵的研究基础和实践工具。
Light-R1-14B-DS 最新流量情况
月总访问量
27175375
跳出率
44.30%
平均页面访问数
5.8
平均访问时长
00:04:57