Llama3-70B-SteerLM-RM ist ein Sprachmodell mit 70 Milliarden Parametern, das als Attributvorhersagemodell und vielseitiges Belohnungsmodell dient. Es bewertet Modellantworten anhand mehrerer Aspekte und nicht, wie traditionelle Belohnungsmodelle, anhand einer einzigen Punktzahl. Das Modell wurde mit dem HelpSteer2-Datensatz trainiert und mithilfe von NVIDIA NeMo-Aligner, einem skalierbaren Toolkit für effizientes und hochperformantes Model Alignment, trainiert.