आजकल बड़े भाषा मॉडल काफ़ी लोकप्रिय हो रहे हैं, ऐसे में संसाधनों की कमी वाले माहौल में इनका कुशलतापूर्वक उपयोग करना एक महत्वपूर्ण चुनौती बन गया है। इस चुनौती का समाधान करने के लिए, Qwen2.5 पर आधारित एक हल्का भाषा मॉडल श्रृंखला, DistilQwen2.5, आधिकारिक तौर पर जारी की गई है। इस मॉडल में एक अभिनव दो-स्तरीय आसवन ढाँचा अपनाया गया है, जो डेटा ऑप्टिमाइज़ेशन और पैरामीटर फ्यूज़न तकनीक के माध्यम से, न केवल मॉडल के प्रदर्शन को बनाए रखता है, बल्कि कम्प्यूटेशनल संसाधनों की खपत को भी काफी कम करता है।

image.png

DistilQwen2.5 की सफलता इसकी अनूठी नॉलेज डिस्टिलेशन तकनीक पर निर्भर करती है। इस प्रक्रिया के लिए बड़ी मात्रा में उच्च-गुणवत्ता वाले निर्देश डेटा की आवश्यकता होती है, जो कई ओपन-सोर्स डेटासेट और निजी सिंथेटिक डेटासेट से प्राप्त किए जाते हैं। डेटा की विविधता सुनिश्चित करने के लिए, शोध दल ने Qwen-max का उपयोग करके चीनी और अंग्रेजी डेटा का विस्तार किया, जिससे कार्यों और भाषाओं में संतुलन बनाया गया। इसके बाद, मॉडल ने "ब्लैक-बॉक्स आसवन" विधि का उपयोग करके शिक्षक मॉडल के आउटपुट का उपयोग निर्देशों के विस्तार, चयन और पुनर्लेखन के लिए किया। इस पद्धति ने न केवल डेटा की गुणवत्ता में सुधार किया है, बल्कि मॉडल की बहु-कार्य प्रसंस्करण क्षमता को भी बढ़ाया है।

image.png

ध्यान देने योग्य बात यह है कि DistilQwen2.5 ने व्हाइट-बॉक्स आसवन तकनीक भी शामिल की है, जो शिक्षक मॉडल के ITS वितरण की नकल करके, छात्र मॉडल को अधिक कुशलतापूर्वक ज्ञान प्राप्त करने में सक्षम बनाती है। यह तकनीक पारंपरिक व्हाइट-बॉक्स आसवन में आने वाली GPU मेमोरी खपत, भंडारण और पढ़ने की धीमी गति जैसी समस्याओं से बचती है।

कई आधिकारिक निर्देश-पालन मूल्यांकन मानकों के परीक्षण के बाद, DistilQwen2.5 का प्रदर्शन उल्लेखनीय रहा है, खासकर AlpacaEval2.0 और MT-Bench के मूल्यांकन में। यह हल्के भाषा मॉडल के विकास के एक नए चरण का प्रतीक है, जो प्रदर्शन को बनाए रखते हुए कम्प्यूटेशनल लागत को काफी कम कर सकता है, और विभिन्न अनुप्रयोगों में AI तकनीक के व्यापक उपयोग को बढ़ावा देता है।

DistilQwen2.5 का ओपन-सोर्स जारी करने से अधिक डेवलपर्स को सुविधा मिलेगी, जिससे वे इस शक्तिशाली उपकरण का आसानी से उपयोग कर सकेंगे और कृत्रिम बुद्धिमत्ता तकनीक के प्रसार में योगदान दे सकेंगे।