Llama3-70B-SteerLM-RM est un modèle linguistique de 70 milliards de paramètres, utilisé comme modèle de prédiction d'attributs, un modèle à récompenses multi-facettes qui évalue les réponses du modèle sur plusieurs aspects, plutôt qu'avec un seul score comme les modèles de récompenses traditionnels. Ce modèle est entraîné avec l'ensemble de données HelpSteer2 et via NVIDIA NeMo-Aligner, une boîte à outils évolutive pour un alignement de modèle efficace et performant.