आज सुबह, अलीबाबा के टोंगयी कियानवेन् टीम ने Qwen2 श्रृंखला के ओपन-सोर्स मॉडल जारी किए। इस श्रृंखला में 5 आकार के पूर्व-प्रशिक्षित और निर्देश-फाइन-ट्यून मॉडल शामिल हैं: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B और Qwen2-72B। महत्वपूर्ण जानकारी से पता चलता है कि इन मॉडलों के पैरामीटर की संख्या और प्रदर्शन पिछले पीढ़ी के Qwen1.5 की तुलना में महत्वपूर्ण रूप से बढ़ा है।
मॉडल की बहुभाषी क्षमताओं के लिए, Qwen2 श्रृंखला ने डेटा सेट की संख्या और गुणवत्ता बढ़ाने में काफी प्रयास किया है, जिसमें अंग्रेजी और चीनी के अलावा 27 अन्य भाषाओं को शामिल किया गया है। तुलना परीक्षणों के बाद, बड़े मॉडल (70B + पैरामीटर) ने प्राकृतिक भाषा समझ, कोडिंग, गणितीय क्षमताओं आदि के क्षेत्रों में उत्कृष्ट प्रदर्शन किया, जबकि Qwen2-72B मॉडल ने प्रदर्शन और पैरामीटर की संख्या दोनों में पिछले पीढ़ी को पीछे छोड़ दिया।
Qwen2 मॉडल न केवल मूल भाषा मॉडल मूल्यांकन में शक्तिशाली क्षमताएँ प्रदर्शित करता है, बल्कि निर्देश फाइन-ट्यून मॉडल मूल्यांकन में भी शानदार परिणाम प्राप्त करता है। इसकी बहुभाषी क्षमताएँ M-MMLU और MGSM जैसे बेंचमार्क परीक्षणों में उत्कृष्टता दिखाती हैं, जो Qwen2 निर्देश फाइन-ट्यून मॉडल की ताकतवर क्षमता को दर्शाती हैं।
Qwen2 श्रृंखला के इस विमोचन ने आर्टिफिशियल इंटेलिजेंस तकनीक के नए स्तर को चिह्नित किया है, जिससे वैश्विक AI अनुप्रयोगों और व्यावसायिकता के लिए और भी व्यापक संभावनाएँ उपलब्ध हैं। भविष्य की ओर देखते हुए, Qwen2 मॉडल के आकार और बहु-आधार क्षमताओं को और बढ़ाएगा, जिससे ओपन-सोर्स AI क्षेत्र के विकास में तेजी आएगी।
मॉडल जानकारी
Qwen2 श्रृंखला में 5 आकार के मूल और निर्देश फाइन-ट्यून मॉडल शामिल हैं, जैसे Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B। हम नीचे तालिका में प्रत्येक मॉडल की महत्वपूर्ण जानकारी को स्पष्ट करते हैं:
मॉडल | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-57B-A14B | Qwen2-72B |
---|---|---|---|---|---|
# पैरामीटर | 0.49 अरब | 1.54 अरब | 7.07B | 57.41B | 72.71B |
# गैर-Embedding पैरामीटर | 0.35 अरब | 1.31B | 5.98 अरब | 56.32 अरब | 70.21B |
गुणवत्ता आश्वासन | सच | सच | सच | सच | सच |
टाई-इन एम्बेडिंग | सच | सच | गलत | गलत | गलत |
संदर्भ लंबाई | 32K | 32K | 128K | 64K | 128K |
विशेष रूप से, पहले Qwen1.5 में, केवल Qwen1.5-32B और Qwen1.5-110B ने ग्रुप क्वेरी अटेंशन (GQA) का उपयोग किया। इस बार, हमने सभी मॉडल आकारों के लिए GQA लागू किया है ताकि वे मॉडल इनफरेंस में तेजी और कम मेमोरी उपयोग का लाभ उठा सकें। छोटे मॉडलों के लिए, हम टाई-इन एम्बेडिंग लागू करना पसंद करते हैं क्योंकि बड़े स्पार्स एम्बेडिंग ने मॉडल के कुल पैरामीटर का एक बड़ा हिस्सा लिया है।
संदर्भ लंबाई के मामले में, सभी मूल भाषा मॉडलों को 32K टोकन की संदर्भ लंबाई डेटा पर पूर्व-प्रशिक्षित किया गया है, और हमने PPL मूल्यांकन में 128K तक संतोषजनक पूर्वानुमान क्षमताएँ देखी हैं। हालाँकि, निर्देश समायोजन मॉडल के लिए, हम केवल PPL मूल्यांकन करने से संतुष्ट नहीं हैं; हमें मॉडल को लंबी संदर्भ को सही ढंग से समझने और कार्य पूरा करने में सक्षम होना चाहिए। तालिका में, हमने निर्देश समायोजन मॉडल की संदर्भ लंबाई क्षमताएँ सूचीबद्ध की हैं, जो कि नीडल इन ए हेस्टैक कार्य के मूल्यांकन द्वारा मापी गई हैं। यह ध्यान देने योग्य है कि YARN के साथ वृद्धि करते समय, Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल ने 128K टोकन की संदर्भ लंबाई को संभालने की प्रभावशाली क्षमता प्रदर्शित की।
हमने पूर्व-प्रशिक्षण और निर्देश समायोजन डेटा सेट की संख्या और गुणवत्ता बढ़ाने के लिए बहुत प्रयास किया है, जिसमें कई भाषाओं को शामिल किया गया है ताकि इसकी बहुभाषी क्षमताओं को बढ़ाया जा सके। हालाँकि बड़े भाषा मॉडल में अन्य भाषाओं में विस्तार करने की अंतर्निहित क्षमता होती है, लेकिन हम स्पष्ट रूप से 27 अन्य भाषाओं को हमारे प्रशिक्षण में शामिल करने पर जोर देते हैं:
क्षेत्र | भाषाएँ |
---|---|
पश्चिमी यूरोप | जर्मन, फ्रेंच, स्पेनिश, पुर्तगाली, इटालियन, डच |
पूर्वी और मध्य यूरोप | रूसी, चेक, पोलिश |
मध्य पूर्व | अरबी, फारसी, हिब्रू, तुर्की |
पूर्वी एशिया | जापानी, कोरियाई |
दक्षिण पूर्व एशिया | वियतनामी, थाई, इंडोनेशियाई, मलय, लाओ, बर्मीज़, सिबूआनो, खमेर, तागालोग |
दक्षिण एशिया | हिंदी, बांग्ला, उर्दू |
इसके अलावा, हमने बहुभाषी मूल्यांकन में अक्सर उत्पन्न होने वाली कोड स्विचिंग समस्याओं को हल करने में काफी प्रयास किया है। इसलिए, हमारे मॉडल की इस घटना को संभालने की क्षमता महत्वपूर्ण रूप से बढ़ गई है। आमतौर पर भाषा के बीच कोड स्विचिंग को प्रेरित करने वाले संकेतों का उपयोग करके किए गए मूल्यांकन से पुष्टि होती है कि संबंधित समस्याएँ महत्वपूर्ण रूप से कम हो गई हैं।
प्रदर्शन
तुलना परीक्षण के परिणामों से पता चलता है कि बड़े पैमाने पर मॉडल (70B+ पैरामीटर) का प्रदर्शन Qwen1.5 की तुलना में काफी बढ़ा है। इस परीक्षण में बड़े पैमाने पर मॉडल Qwen2-72B पर ध्यान केंद्रित किया गया है। मूल भाषा मॉडल के संदर्भ में, हमने Qwen2-72B और वर्तमान सर्वश्रेष्ठ ओपन मॉडल के बीच प्राकृतिक भाषा समझ, ज्ञान अधिग्रहण, प्रोग्रामिंग क्षमताओं, गणितीय क्षमताओं, बहुभाषी क्षमताओं आदि के प्रदर्शन की तुलना की। अच्छी तरह से चुने गए डेटा सेट और अनुकूलित प्रशिक्षण विधियों के कारण, Qwen2-72B का प्रदर्शन Llama-3-70B जैसे अग्रणी मॉडलों से बेहतर है, जबकि पैरामीटर की संख्या कम होने पर भी, इसका प्रदर्शन पिछले पीढ़ी के Qwen1.5-110B से भी बेहतर है।
बड़े पैमाने पर पूर्व-प्रशिक्षण के बाद, हमने बाद में प्रशिक्षण किया ताकि Qwen की बुद्धिमत्ता को और बढ़ाया जा सके, जिससे यह मानव के करीब हो सके। इस प्रक्रिया ने कोडिंग, गणित, तर्क, निर्देश पालन, बहुभाषी समझ आदि क्षेत्रों में मॉडल की क्षमताओं को और बढ़ाया। इसके अलावा, इसने मॉडल के आउटपुट को मानव मूल्यों के साथ सुसंगत रखा, यह सुनिश्चित करते हुए कि यह उपयोगी, ईमानदार और हानिकारक नहीं है। हमारे बाद के प्रशिक्षण चरण को स्केलेबल प्रशिक्षण और न्यूनतम मानव टिप्पणी के सिद्धांतों के अनुसार डिजाइन किया गया है। विशेष रूप से, हमने विभिन्न स्वचालित संरेखण रणनीतियों के माध्यम से उच्च गुणवत्ता, विश्वसनीय, विविध और रचनात्मक प्रदर्शन डेटा और प्राथमिकता डेटा प्राप्त करने के तरीकों का अध्ययन किया है, जैसे कि गणित के लिए इनकार नमूना, कोडिंग और निर्देश पालन के कार्यान्वयन फीडबैक, रचनात्मक लेखन का प्रतिकृति अनुवाद, और भूमिका निभाने की स्केलेबल निगरानी आदि। प्रशिक्षण के लिए, हमने पर्यवेक्षित माइक्रो-फाइन-ट्यूनिंग, पुरस्कार मॉडल प्रशिक्षण और ऑनलाइन DPO प्रशिक्षण के संयोजन का उपयोग किया। हमने संरेखण करों को अधिकतम करने के लिए एक नवीन ऑनलाइन विलय अनुकूलक का भी उपयोग किया। ये सभी प्रयास हमारे मॉडल की क्षमताओं और बुद्धिमत्ता को महत्वपूर्ण रूप से बढ़ाते हैं, जैसा कि नीचे दी गई तालिका में दर्शाया गया है।
हमने Qwen2-72B-Instruct का व्यापक मूल्यांकन किया, जिसमें विभिन्न क्षेत्रों के 16 बेंचमार्क परीक्षण शामिल हैं। Qwen2-72B-Instruct ने बेहतर क्षमताओं और मानव मूल्यों के साथ सुसंगतता के बीच संतुलन बनाया है। विशेष रूप से, Qwen2-72B-Instruct सभी बेंचमार्क परीक्षणों में स्पष्ट रूप से Qwen1.5-72B-Chat से बेहतर है, और Llama-3-70B-Instruct की तुलना में भी प्रतिस्पर्धी प्रदर्शन प्राप्त करता है।
छोटे मॉडलों पर, हमारा Qwen2 मॉडल समान या बड़े आकार के SOTA मॉडलों से भी बेहतर प्रदर्शन करता है। हाल ही में जारी किए गए SOTA मॉडलों की तुलना में, Qwen2-7B-Instruct सभी बेंचमार्क परीक्षणों में बढ़त दिखाता है, विशेष रूप से कोडिंग और चीनी संबंधित मापदंडों में उत्कृष्टता दर्शाता है।
मुख्य विशेषताएँ
कोडिंग और गणित
हम Qwen की उच्च स्तरीय क्षमताओं को बढ़ाने के लिए लगातार प्रयास कर रहे हैं, विशेष रूप से कोडिंग और गणित के क्षेत्रों में। कोडिंग में, हमने CodeQwen1.5 के कोड प्रशिक्षण अनुभव और डेटा को सफलतापूर्वक एकीकृत किया है, जिससे Qwen2-72B-Instruct ने विभिन्न प्रोग्रामिंग भाषाओं में महत्वपूर्ण सुधार प्राप्त किया है। गणित में, व्यापक और उच्च गुणवत्ता वाले डेटा सेट का उपयोग करके, Qwen2-72B-Instruct ने गणित की समस्याओं को हल करने में अधिक मजबूत क्षमता प्रदर्शित की है।
लंबी संदर्भ समझ
Qwen2 में, सभी निर्देश समायोजन मॉडल 32k लंबाई संदर्भ में प्रशिक्षित किए गए हैं, और YARN या डुअल चंक अटेंशन जैसी तकनीकों का उपयोग करके लंबे संदर्भ लंबाई में अनुमानित किए गए हैं।
नीचे दी गई चित्र में हम Needle in a Haystack पर परीक्षण परिणाम दिखाते हैं, यह ध्यान देने योग्य है कि Qwen2-72B-Instruct ने 128k संदर्भ में जानकारी निकालने के कार्य को पूरी तरह से संभालने की क्षमता दिखाई है, और इसके साथ ही इसके अंतर्निहित शक्तिशाली प्रदर्शन के कारण, यह संसाधनों की प्रचुरता के मामले में लंबे पाठ कार्यों को संभालने का सबसे अच्छा विकल्प बन जाता है।
इसके अलावा, श्रृंखला के अन्य मॉडलों की प्रभावशाली क्षमताएँ भी ध्यान देने योग्य हैं: Qwen2-7B-Instruct लगभग 128k संदर्भ को पूरी तरह से संभालता है, Qwen2-57B-A14B-Instruct 64k संदर्भ को प्रबंधित करता है, जबकि श्रृंखला के दो छोटे मॉडल 32k संदर्भ का समर्थन करते हैं।
लंबी संदर्भ मॉडल के अलावा, हमने 1 मिलियन से अधिक टोकन वाले दस्तावेज़ों को प्रभावी ढंग से संभालने के लिए एक प्रॉक्सी समाधान भी ओपन-सोर्स किया है। इस विषय पर अधिक विस्तृत जानकारी के लिए, कृपया हमारे इस विषय पर विशेष ब्लॉग लेख को देखें।
सुरक्षा और जिम्मेदारी
नीचे दी गई तालिका में चार प्रकार के बहुभाषी असुरक्षित प्रश्नों (अवैध गतिविधियाँ, धोखाधड़ी, अश्लीलता, गोपनीयता हिंसा) के लिए बड़े मॉडल द्वारा उत्पन्न हानिकारक प्रतिक्रियाओं का अनुपात प्रदर्शित किया गया है। परीक्षण डेटा Jailbreak से लिया गया है और विभिन्न भाषाओं में अनुवादित किया गया है। हमने पाया कि Llama-3 बहुभाषी संकेतों को प्रभावी ढंग से संभालने में असमर्थ है, इसलिए इसे तुलना के दायरे में नहीं रखा गया। महत्व परीक्षण (P_value) के माध्यम से, हमने पाया कि Qwen2-72B-Instruct मॉडल सुरक्षा के मामले में GPT-4 के समान प्रदर्शन करता है, और Mistral-8x22B मॉडल की तुलना में महत्वपूर्ण रूप से बेहतर है।