Eurus-2-7B-PRIME

PRIME手法を用いて訓練された70億パラメーターの言語モデルで、推論能力の向上を目的として設計されています。

一般製品プログラミング強化学習推論能力
PRIME-RL/Eurus-2-7B-PRIMEは、PRIME手法を用いて訓練された70億パラメーターの言語モデルで、オンライン強化学習によって言語モデルの推論能力を向上させることを目的としています。本モデルはEurus-2-7B-SFTから訓練を開始し、Eurus-2-RL-Dataデータセットを用いて強化学習を行いました。PRIME手法は、暗黙的な報酬メカニズムを通じて、モデルが生成プロセスにおいて結果だけでなく推論プロセスにも重点を置くようにします。本モデルは複数の推論ベンチマークテストで優れた性能を示し、SFT版と比較して平均16.7%向上しました。主な利点としては、推論能力の効率的な向上、データとモデル資源の低消費、数学とプログラミングタスクにおける優れた性能が挙げられます。本モデルは、プログラミング問題解答や数学問題解決など、複雑な推論能力が求められる場面に適しています。
ウェブサイトを開く

Eurus-2-7B-PRIME 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

Eurus-2-7B-PRIME 訪問数の傾向

Eurus-2-7B-PRIME 訪問地理的分布

Eurus-2-7B-PRIME トラフィックソース

Eurus-2-7B-PRIME 代替品