Llama3-70B-SteerLM-RM
70億パラメーターの多面的な報酬モデル
一般製品プログラミング言語モデル報酬モデル
Llama3-70B-SteerLM-RMは、70億パラメーターの言語モデルであり、属性予測モデルとして機能する多面的な報酬モデルです。従来の報酬モデルのように単一スコアではなく、複数の側面からモデル応答を評価します。このモデルはHelpSteer2データセットを使用してトレーニングされ、効率的で拡張性のあるモデルアラインメントのためのツールキットであるNVIDIA NeMo-Alignerによってトレーニングされました。
Llama3-70B-SteerLM-RM 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44