नेमोट्रॉन-4-340B-इंस्ट्रक्ट, एनवीडिया द्वारा विकसित एक बड़ा भाषा मॉडल (LLM) है, जो अंग्रेजी में एकल और बहु-चरण वार्तालापों के लिए अनुकूलित है। यह मॉडल 4096 टोकन के संदर्भ लंबाई का समर्थन करता है, और इसे अतिरिक्त संरेखण चरणों जैसे पर्यवेक्षित ठीक-ठीक समायोजन (SFT), प्रत्यक्ष प्राथमिकता अनुकूलन (DPO) और इनाम-संवेदनशील प्राथमिकता अनुकूलन (RPO) से गुज़ारा गया है। मॉडल को लगभग 20K मानव-अनुक्रमित डेटा पर प्रशिक्षित किया गया है, और पर्यवेक्षित ठीक-ठीक समायोजन और प्राथमिकता ठीक-ठीक समायोजन के लिए 98% से अधिक सिंथेटिक डेटा का उपयोग किया गया। इससे मॉडल मानवीय वार्तालाप प्राथमिकताओं, गणितीय तर्क, कोडिंग और निर्देशों के पालन में अच्छा प्रदर्शन करता है, और कई उपयोग मामलों के लिए उच्च-गुणवत्ता वाला सिंथेटिक डेटा उत्पन्न कर सकता है।