मिस्ट्रल-नेमो-इंस्ट्रक्ट-2407 मिस्ट्रल एआई और एनवीडिया द्वारा संयुक्त रूप से प्रशिक्षित एक विशाल भाषा मॉडल (LLM) है, जो मिस्ट्रल-नेमो-बेस-2407 का निर्देश-सुधारित संस्करण है। यह मॉडल बहुभाषी और कोड डेटा पर प्रशिक्षित किया गया है, और समान आकार या उससे छोटे मौजूदा मॉडल से काफी बेहतर प्रदर्शन करता है। इसकी मुख्य विशेषताएँ इस प्रकार हैं: बहुभाषी और कोड डेटा प्रशिक्षण का समर्थन, 128k संदर्भ विंडो, मिस्ट्रल 7B का विकल्प। मॉडल आर्किटेक्चर में 40 परतें, 5120 आयाम, 128 हेड आयाम, 1436 छिपे हुए आयाम, 32 हेड, 8 kv हेड (GQA), 2^17 शब्दावली (लगभग 128k), और घूर्णन एम्बेडिंग (theta=1M) शामिल हैं। यह मॉडल विभिन्न बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करता है, जैसे कि HellaSwag (0-शॉट), Winogrande (0-शॉट), OpenBookQA (0-शॉट) आदि।