Llama-3.1-Nemotron-70B-Instructは、NVIDIAがカスタマイズした大規模言語モデル(LLM)で、大規模言語モデルが生成する回答の有用性を向上させることに重点を置いています。このモデルは、Arena Hard、AlpacaEval 2 LC、GPT-4-Turbo MT-Benchなどの複数の自動アライメントベンチマークで優れた性能を示しています。Llama-3.1-70B-Instructモデルを基に、RLHF(特にREINFORCEアルゴリズム)、Llama-3.1-Nemotron-70B-Reward、HelpSteer2-Preferenceプロンプトを使用してトレーニングされています。このモデルは、NVIDIAが汎用的な指示に従う際の有用性を向上させる技術を示すだけでなく、Hugging Face Transformersコードライブラリと互換性のあるモデル変換形式を提供し、NVIDIAのbuildプラットフォームで無料のホスト型推論を利用できます。