हाल ही में, एनवीडिया (NVIDIA) ने आर्टिफिशियल इंटेलिजेंस के क्षेत्र में एक नई पहल की है, उन्होंने Minitron श्रृंखला के छोटे भाषा मॉडल लॉन्च किए हैं, जिसमें 4B और 8B के दो संस्करण शामिल हैं। ये मॉडल न केवल प्रशिक्षण की गति को 40 गुना बढ़ाते हैं, बल्कि डेवलपर्स को अनुवाद, भावनात्मक विश्लेषण और संवाद AI जैसे विभिन्न अनुप्रयोगों के लिए उनका उपयोग करना भी आसान बनाते हैं।

image.png

आप पूछ सकते हैं, छोटे भाषा मॉडल इतने महत्वपूर्ण क्यों हैं? वास्तव में, पारंपरिक बड़े भाषा मॉडल हालांकि प्रदर्शन में शक्तिशाली होते हैं, लेकिन उनके प्रशिक्षण और तैनाती की लागत बहुत अधिक होती है, अक्सर इसके लिए भारी गणना संसाधनों और डेटा की आवश्यकता होती है। अधिक लोगों को इन उन्नत तकनीकों का उपयोग करने में सक्षम बनाने के लिए, एनवीडिया की अनुसंधान टीम ने एक शानदार तरीका निकाला: “प्रूनिंग” (pruning) और “ज्ञान आसवन” (knowledge distillation) जैसी दो तकनीकों को मिलाकर मॉडल के आकार को कुशलता से कम करना।

विशेष रूप से, शोधकर्ता पहले मौजूदा बड़े मॉडल से शुरू करते हैं और उसे प्रून करते हैं। वे मॉडल में प्रत्येक न्यूरॉन, परत या ध्यान हेड के महत्व का मूल्यांकन करते हैं और कम महत्वपूर्ण भागों को हटा देते हैं। इस तरह, मॉडल काफी छोटा हो जाता है, और प्रशिक्षण के लिए आवश्यक संसाधन और समय भी बहुत कम हो जाता है। इसके बाद, वे प्रून किए गए मॉडल को एक छोटे डेटा सेट का उपयोग करके ज्ञान आसवन प्रशिक्षण देते हैं, ताकि मॉडल की सटीकता को पुनर्स्थापित किया जा सके। आश्चर्यजनक रूप से, यह प्रक्रिया न केवल पैसे बचाती है, बल्कि मॉडल के प्रदर्शन में भी सुधार करती है!

व्यवहारिक परीक्षण में, एनवीडिया की अनुसंधान टीम ने Nemotron-4 मॉडल परिवार पर बहुत अच्छे परिणाम प्राप्त किए। उन्होंने सफलतापूर्वक मॉडल के आकार को 2 से 4 गुना कम किया, जबकि प्रदर्शन को समान बनाए रखा। और भी रोमांचक बात यह है कि 8B मॉडल कई मानकों पर अन्य प्रसिद्ध मॉडलों जैसे Mistral7B और LLaMa-38B को पार कर गया, और प्रशिक्षण प्रक्रिया में आवश्यक प्रशिक्षण डेटा की मात्रा 40 गुना कम हो गई, गणना की लागत 1.8 गुना बच गई। सोचिए, इसका क्या मतलब है? अधिक डेवलपर्स कम संसाधनों और लागत के साथ शक्तिशाली AI क्षमताओं का अनुभव कर सकते हैं!

एनवीडिया ने इन अनुकूलित Minitron मॉडलों को Huggingface पर ओपन-सोर्स किया है, ताकि सभी लोग इसका स्वतंत्र रूप से उपयोग कर सकें।

image.png

डेमो लिंक: https://huggingface.co/collections/nvidia/minitron-669ac727dc9c86e6ab7f0f3e

मुख्य बिंदु:

📈 ** प्रशिक्षण गति में वृद्धि **: Minitron मॉडल पारंपरिक मॉडलों की तुलना में 40 गुना तेज है, जिससे डेवलपर्स का समय और प्रयास बचता है।

💡 ** लागत की बचत **: प्रूनिंग और ज्ञान आसवन तकनीक के माध्यम से, प्रशिक्षण के लिए आवश्यक गणना संसाधनों और डेटा की मात्रा को काफी कम किया गया है।

🌍 ** ओपन-सोर्स साझा **: Minitron मॉडल अब Huggingface पर ओपन-सोर्स है, जिससे अधिक लोग आसानी से इसे प्राप्त कर सकते हैं और उपयोग कर सकते हैं, AI तकनीक के प्रसार को बढ़ावा मिल रहा है।