Eurus-2-7B-PRIME

基于PRIME方法训练的7B参数语言模型,专为提升推理能力而设计。

普通产品编程强化学习推理能力
PRIME-RL/Eurus-2-7B-PRIME是一个基于PRIME方法训练的7B参数的语言模型,旨在通过在线强化学习提升语言模型的推理能力。该模型从Eurus-2-7B-SFT开始训练,利用Eurus-2-RL-Data数据集进行强化学习。PRIME方法通过隐式奖励机制,使模型在生成过程中更加注重推理过程,而不仅仅是结果。该模型在多项推理基准测试中表现出色,相较于其SFT版本平均提升了16.7%。其主要优点包括高效的推理能力提升、较低的数据和模型资源需求,以及在数学和编程任务中的优异表现。该模型适用于需要复杂推理能力的场景,如编程问题解答和数学问题求解。
打开网站

Eurus-2-7B-PRIME 最新流量情况

月总访问量

20899836

跳出率

46.04%

平均页面访问数

5.2

平均访问时长

00:04:57

Eurus-2-7B-PRIME 访问量趋势

Eurus-2-7B-PRIME 访问地理位置分布

Eurus-2-7B-PRIME 流量来源

Eurus-2-7B-PRIME 替代品