कृत्रिम बुद्धिमत्ता के क्षेत्र में, बाद की प्रशिक्षण तकनीक धीरे-धीरे मॉडल के प्रदर्शन को बढ़ाने के लिए एक महत्वपूर्ण उपकरण बनती जा रही है। हाल ही में, एलेन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (AI2) ने Tülu3 श्रृंखला मॉडल जारी किया है, जो एक पूरी तरह से ओपन-सोर्स उन्नत भाषा मॉडल है, जिसका प्रदर्शन GPT-4o-mini जैसे बंद-स्रोत मॉडलों के समान है। Tülu3 में न केवल मॉडल डेटा, कोड और प्रशिक्षण नुस्खा शामिल हैं, बल्कि यह मूल्यांकन ढांचा भी प्रदान करता है, जिसका उद्देश्य ओपन-सोर्स मॉडल की बाद की प्रशिक्षण तकनीक के विकास को बढ़ावा देना है।
परंपरागत रूप से, केवल पूर्व-प्रशिक्षित मॉडल अक्सर वास्तविक अनुप्रयोग आवश्यकताओं को प्रभावी ढंग से पूरा नहीं कर पाते हैं, जो विषाक्त या खतरनाक जानकारी उत्पन्न कर सकते हैं और मानव निर्देशों का पालन करना मुश्किल होता है। इसलिए, बाद की प्रशिक्षण चरण जैसे कि निर्देश माइक्रो-ट्यूनिंग और मानव फीडबैक लर्निंग विशेष रूप से महत्वपूर्ण हैं। हालांकि, बाद की प्रशिक्षण प्रक्रिया को अनुकूलित करना अभी भी एक तकनीकी चुनौती है, खासकर जब किसी विशेष क्षमता को बढ़ाने की कोशिश की जाती है, तो यह अन्य क्षमताओं को प्रभावित कर सकती है।
इस चुनौती को हल करने के लिए, प्रमुख कंपनियाँ बाद की प्रशिक्षण विधियों की जटिलता को बढ़ा रही हैं, कई राउंड के प्रशिक्षण और मानव एवं सिंथेटिक डेटा के संयोजन का प्रयास कर रही हैं, लेकिन अधिकांश विधियाँ अभी भी बंद-स्रोत हैं। इसके विपरीत, Tülu3 श्रृंखला का विमोचन ओपन-सोर्स मॉडल और बंद-सोर्स मॉडल के बीच प्रदर्शन अंतर को तोड़ता है, और एक नई प्रशिक्षण सोच लाता है।
Tülu3 का प्रशिक्षण प्रक्रिया चार चरणों में विभाजित है: डेटा निर्माण, पर्यवेक्षित माइक्रो-ट्यूनिंग, प्राथमिकता समायोजन और सत्यापित पुरस्कार सुदृढ़ीकरण सीखना।
पहले, शोधकर्ता मॉडल की मुख्य क्षमताओं पर ध्यान केंद्रित करते हैं, प्रशिक्षण डेटा बनाने के लिए मानव डेटा और सिंथेटिक डेटा के संयोजन का उपयोग करते हैं।
दूसरे, पर्यवेक्षित माइक्रो-ट्यूनिंग की जाती है, ताकि यह सुनिश्चित किया जा सके कि मॉडल विशेष क्षमताओं में अन्य उन्नत मॉडलों के प्रदर्शन के मुकाबले पीछे न रहे।
तीसरे, मॉडल के समग्र प्रदर्शन को और बढ़ाने के लिए सीधे प्राथमिकता अनुकूलन विधि का उपयोग किया जाता है। अंत में, सत्यापित पुरस्कार सुदृढ़ीकरण सीखने की विधि को नवाचार के रूप में पेश किया जाता है, जो मॉडल को सत्यापित परिणामों के कार्यों को बेहतर ढंग से पूरा करने में मदद करता है।
Tülu3 मॉडल Llama3.1 के आधार पर निर्मित है, और यह निष्पादन, गणित, प्रोग्रामिंग और निर्देशों के पालन जैसे क्षेत्रों में उत्कृष्टता दिखाता है। अन्य ओपन-सोर्स और बंद-सोर्स मॉडलों की तुलना में, Tülu3 की समग्र क्षमता कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करती है, जो ओपन-सोर्स बाद की प्रशिक्षण तकनीक में एक महत्वपूर्ण प्रगति का प्रतीक है।
पेपर लिंक: https://allenai.org/papers/tulu-3-report.pdf
डेमो: https://playground.allenai.org/
मुख्य बिंदु:
🌟 Tülu3 AI2 द्वारा पेश किया गया ओपन-सोर्स भाषा मॉडल है, जो बंद-सोर्स मॉडल जैसे GPT-4o-mini के प्रदर्शन के समान है।
🔧 बाद की प्रशिक्षण तकनीक अत्यंत महत्वपूर्ण है, जो वास्तविक अनुप्रयोगों में मॉडल के प्रदर्शन को प्रभावी ढंग से बढ़ा सकती है।
📊 Tülu3 की प्रशिक्षण प्रक्रिया नवाचार है, जो डेटा निर्माण, पर्यवेक्षित माइक्रो-ट्यूनिंग, प्राथमिकता समायोजन और सत्यापित पुरस्कार सुदृढ़ीकरण सीखने के चार चरणों में विभाजित है।