वैश्विक आर्टिफिशियल इंटेलिजेंस के अग्रणी कंपनी एनवीडिया (Nvidia) ने हाल ही में दो नए बड़े मॉडल ओपन-सोर्स किए हैं: Nemotron-4-Minitron-4B और Nemotron-4-Minitron-8B। इन दोनों मॉडलों का ओपन-सोर्स होना न केवल तकनीकी दृष्टि से एक छलांग है, बल्कि एआई क्षेत्र में एक दक्षता क्रांति भी ला रहा है।
पारंपरिक एआई बड़े मॉडल प्रशिक्षण को बहुत अधिक डेटा और कंप्यूटिंग शक्ति की आवश्यकता होती है। हालाँकि, एनवीडिया ने संरचित प्रूनिंग और ज्ञान आसवन जैसी दो प्रभावी प्रशिक्षण विधियों को अपनाकर इस आवश्यकता को काफी कम कर दिया है। विशेष रूप से, शून्य से प्रशिक्षण करने की तुलना में, नए मॉडल के लिए आवश्यक प्रशिक्षण टोकन डेटा 40 गुना कम हो गया है, और कंप्यूटिंग लागत में 1.8 गुना की बचत हुई है। इस उपलब्धि के पीछे, एनवीडिया द्वारा मौजूदा मॉडल Llama-3.18B का गहरा अनुकूलन है।
संरचित प्रूनिंग एक न्यूरल नेटवर्क संकुचन तकनीक है, जो महत्वपूर्ण वजन को हटाकर मॉडल संरचना को सरल बनाती है। यादृच्छिक प्रूनिंग के विपरीत, संरचित प्रूनिंग वजन मैट्रिक्स की संरचना को बनाए रखती है, पूरे न्यूरॉन या ध्यान सिर को हटाकर, जिससे प्रूनिंग के बाद का मॉडल GPU, TPU जैसे हार्डवेयर पर कुशलतापूर्वक चलने के लिए अधिक उपयुक्त होता है।
ज्ञान आसवन एक विधि है जो छात्र मॉडल को शिक्षक मॉडल की नकल करने के लिए प्रेरित करती है, जिससे प्रदर्शन में सुधार होता है। एनवीडिया के अभ्यास में, लॉजिट आधारित ज्ञान आसवन के माध्यम से, छात्र मॉडल शिक्षक मॉडल की गहरी समझ को सीख सकता है, भले ही प्रशिक्षण डेटा को काफी कम किया गया हो, फिर भी उत्कृष्ट प्रदर्शन बनाए रख सकता है।
संरचित प्रूनिंग और ज्ञान आसवन प्रशिक्षण के माध्यम से प्राप्त Minitron-4B और Minitron-8B मॉडल ने MMLU पर 16% स्कोर में सुधार किया है, और यह Mistral7B, Gemma7B और Llama-38B जैसे प्रसिद्ध मॉडलों के साथ प्रतिस्पर्धा कर सकता है। यह परिणाम एनवीडिया की विधि की प्रभावशीलता को प्रमाणित करता है, साथ ही एआई बड़े मॉडल के प्रशिक्षण और तैनाती के लिए नई संभावनाएँ प्रदान करता है।
एनवीडिया का यह ओपन-सोर्स प्रयास न केवल इसकी एआई तकनीक में नेतृत्व की स्थिति को दर्शाता है, बल्कि एआई समुदाय को मूल्यवान संसाधन भी प्रदान करता है। जैसे-जैसे एआई तकनीक में निरंतर प्रगति होती है, हम अधिक नवाचारपूर्ण तरीकों की अपेक्षा करते हैं, जो एआई को अधिक कुशल और बुद्धिमान दिशा में आगे बढ़ाएंगे।
मॉडल लिंक:
https://huggingface.co/nvidia/Nemotron-4-Minitron-4B-Base
https://huggingface.co/nvidia/Nemotron-4-Minitron-8B-Base