Llama3-70B-SteerLM-RM

70億パラメーターの多面的な報酬モデル

一般製品プログラミング言語モデル報酬モデル
Llama3-70B-SteerLM-RMは、70億パラメーターの言語モデルであり、属性予測モデルとして機能する多面的な報酬モデルです。従来の報酬モデルのように単一スコアではなく、複数の側面からモデル応答を評価します。このモデルはHelpSteer2データセットを使用してトレーニングされ、効率的で拡張性のあるモデルアラインメントのためのツールキットであるNVIDIA NeMo-Alignerによってトレーニングされました。
ウェブサイトを開く

Llama3-70B-SteerLM-RM 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

Llama3-70B-SteerLM-RM 訪問数の傾向

Llama3-70B-SteerLM-RM 訪問地理的分布

Llama3-70B-SteerLM-RM トラフィックソース

Llama3-70B-SteerLM-RM 代替品