Eurus-2-7B-PRIME
PRIME手法を用いて訓練された70億パラメーターの言語モデルで、推論能力の向上を目的として設計されています。
一般製品プログラミング強化学習推論能力
PRIME-RL/Eurus-2-7B-PRIMEは、PRIME手法を用いて訓練された70億パラメーターの言語モデルで、オンライン強化学習によって言語モデルの推論能力を向上させることを目的としています。本モデルはEurus-2-7B-SFTから訓練を開始し、Eurus-2-RL-Dataデータセットを用いて強化学習を行いました。PRIME手法は、暗黙的な報酬メカニズムを通じて、モデルが生成プロセスにおいて結果だけでなく推論プロセスにも重点を置くようにします。本モデルは複数の推論ベンチマークテストで優れた性能を示し、SFT版と比較して平均16.7%向上しました。主な利点としては、推論能力の効率的な向上、データとモデル資源の低消費、数学とプログラミングタスクにおける優れた性能が挙げられます。本モデルは、プログラミング問題解答や数学問題解決など、複雑な推論能力が求められる場面に適しています。
Eurus-2-7B-PRIME 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44