Llama3-70B-SteerLM-RM

70亿参数的多方面奖励模型

普通产品编程语言模型奖励模型
Llama3-70B-SteerLM-RM是一个70亿参数的语言模型,用作属性预测模型,一个多方面的奖励模型,它在多个方面对模型响应进行评分,而不是传统奖励模型中的单一分数。该模型使用HelpSteer2数据集训练,并通过NVIDIA NeMo-Aligner进行训练,这是一个可扩展的工具包,用于高效和高效的模型对齐。
打开网站

Llama3-70B-SteerLM-RM 最新流量情况

月总访问量

17788201

跳出率

44.87%

平均页面访问数

5.4

平均访问时长

00:05:32

Llama3-70B-SteerLM-RM 访问量趋势

Llama3-70B-SteerLM-RM 访问地理位置分布

Llama3-70B-SteerLM-RM 流量来源

Llama3-70B-SteerLM-RM 替代品