Llama-3.1-Nemotron-70B-Instruct es un modelo de lenguaje grande (LLM) personalizado por NVIDIA, centrado en mejorar la utilidad de las respuestas generadas por los modelos de lenguaje grande. Este modelo ha demostrado un rendimiento excelente en varias pruebas de referencia de alineación automática, como Arena Hard, AlpacaEval 2 LC y GPT-4-Turbo MT-Bench. Se entrenó utilizando RLHF (específicamente el algoritmo REINFORCE), Llama-3.1-Nemotron-70B-Reward y las indicaciones HelpSteer2-Preference sobre el modelo Llama-3.1-70B-Instruct. Este modelo no solo muestra la tecnología de NVIDIA para mejorar la utilidad del seguimiento de instrucciones en dominios generales, sino que también proporciona un formato de conversión de modelos compatible con la biblioteca de código HuggingFace Transformers y permite la inferencia de alojamiento gratuito a través de la plataforma NVIDIA build.