आज सुबह, अलीबाबा के टोंगयी कियानवेन् टीम ने Qwen2 श्रृंखला के ओपन-सोर्स मॉडल जारी किए। इस श्रृंखला में 5 आकार के पूर्व-प्रशिक्षित और निर्देश-फाइन-ट्यून मॉडल शामिल हैं: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B और Qwen2-72B। महत्वपूर्ण जानकारी से पता चलता है कि इन मॉडलों के पैरामीटर की संख्या और प्रदर्शन पिछले पीढ़ी के Qwen1.5 की तुलना में महत्वपूर्ण रूप से बढ़ा है।

मॉडल की बहुभाषी क्षमताओं के लिए, Qwen2 श्रृंखला ने डेटा सेट की संख्या और गुणवत्ता बढ़ाने में काफी प्रयास किया है, जिसमें अंग्रेजी और चीनी के अलावा 27 अन्य भाषाओं को शामिल किया गया है। तुलना परीक्षणों के बाद, बड़े मॉडल (70B + पैरामीटर) ने प्राकृतिक भाषा समझ, कोडिंग, गणितीय क्षमताओं आदि के क्षेत्रों में उत्कृष्ट प्रदर्शन किया, जबकि Qwen2-72B मॉडल ने प्रदर्शन और पैरामीटर की संख्या दोनों में पिछले पीढ़ी को पीछे छोड़ दिया।

Qwen2 मॉडल न केवल मूल भाषा मॉडल मूल्यांकन में शक्तिशाली क्षमताएँ प्रदर्शित करता है, बल्कि निर्देश फाइन-ट्यून मॉडल मूल्यांकन में भी शानदार परिणाम प्राप्त करता है। इसकी बहुभाषी क्षमताएँ M-MMLU और MGSM जैसे बेंचमार्क परीक्षणों में उत्कृष्टता दिखाती हैं, जो Qwen2 निर्देश फाइन-ट्यून मॉडल की ताकतवर क्षमता को दर्शाती हैं।

Qwen2 श्रृंखला के इस विमोचन ने आर्टिफिशियल इंटेलिजेंस तकनीक के नए स्तर को चिह्नित किया है, जिससे वैश्विक AI अनुप्रयोगों और व्यावसायिकता के लिए और भी व्यापक संभावनाएँ उपलब्ध हैं। भविष्य की ओर देखते हुए, Qwen2 मॉडल के आकार और बहु-आधार क्षमताओं को और बढ़ाएगा, जिससे ओपन-सोर्स AI क्षेत्र के विकास में तेजी आएगी।

मॉडल जानकारी

Qwen2 श्रृंखला में 5 आकार के मूल और निर्देश फाइन-ट्यून मॉडल शामिल हैं, जैसे Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B। हम नीचे तालिका में प्रत्येक मॉडल की महत्वपूर्ण जानकारी को स्पष्ट करते हैं:

मॉडल Qwen2-0.5B Qwen2-1.5B Qwen2-7B Qwen2-57B-A14B Qwen2-72B
# पैरामीटर 0.49 अरब 1.54 अरब 7.07B 57.41B 72.71B
# गैर-Embedding पैरामीटर 0.35 अरब 1.31B 5.98 अरब 56.32 अरब 70.21B
गुणवत्ता आश्वासन सच सच सच सच सच
टाई-इन एम्बेडिंग सच सच गलत गलत गलत
संदर्भ लंबाई 32K 32K 128K 64K 128K

विशेष रूप से, पहले Qwen1.5 में, केवल Qwen1.5-32B और Qwen1.5-110B ने ग्रुप क्वेरी अटेंशन (GQA) का उपयोग किया। इस बार, हमने सभी मॉडल आकारों के लिए GQA लागू किया है ताकि वे मॉडल इनफरेंस में तेजी और कम मेमोरी उपयोग का लाभ उठा सकें। छोटे मॉडलों के लिए, हम टाई-इन एम्बेडिंग लागू करना पसंद करते हैं क्योंकि बड़े स्पार्स एम्बेडिंग ने मॉडल के कुल पैरामीटर का एक बड़ा हिस्सा लिया है।

संदर्भ लंबाई के मामले में, सभी मूल भाषा मॉडलों को 32K टोकन की संदर्भ लंबाई डेटा पर पूर्व-प्रशिक्षित किया गया है, और हमने PPL मूल्यांकन में 128K तक संतोषजनक पूर्वानुमान क्षमताएँ देखी हैं। हालाँकि, निर्देश समायोजन मॉडल के लिए, हम केवल PPL मूल्यांकन करने से संतुष्ट नहीं हैं; हमें मॉडल को लंबी संदर्भ को सही ढंग से समझने और कार्य पूरा करने में सक्षम होना चाहिए। तालिका में, हमने निर्देश समायोजन मॉडल की संदर्भ लंबाई क्षमताएँ सूचीबद्ध की हैं, जो कि नीडल इन ए हेस्टैक कार्य के मूल्यांकन द्वारा मापी गई हैं। यह ध्यान देने योग्य है कि YARN के साथ वृद्धि करते समय, Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल ने 128K टोकन की संदर्भ लंबाई को संभालने की प्रभावशाली क्षमता प्रदर्शित की।

हमने पूर्व-प्रशिक्षण और निर्देश समायोजन डेटा सेट की संख्या और गुणवत्ता बढ़ाने के लिए बहुत प्रयास किया है, जिसमें कई भाषाओं को शामिल किया गया है ताकि इसकी बहुभाषी क्षमताओं को बढ़ाया जा सके। हालाँकि बड़े भाषा मॉडल में अन्य भाषाओं में विस्तार करने की अंतर्निहित क्षमता होती है, लेकिन हम स्पष्ट रूप से 27 अन्य भाषाओं को हमारे प्रशिक्षण में शामिल करने पर जोर देते हैं:

क्षेत्र भाषाएँ
पश्चिमी यूरोप जर्मन, फ्रेंच, स्पेनिश, पुर्तगाली, इटालियन, डच
पूर्वी और मध्य यूरोप रूसी, चेक, पोलिश
मध्य पूर्व अरबी, फारसी, हिब्रू, तुर्की
पूर्वी एशिया जापानी, कोरियाई
दक्षिण पूर्व एशिया वियतनामी, थाई, इंडोनेशियाई, मलय, लाओ, बर्मीज़, सिबूआनो, खमेर, तागालोग
दक्षिण एशिया हिंदी, बांग्ला, उर्दू

इसके अलावा, हमने बहुभाषी मूल्यांकन में अक्सर उत्पन्न होने वाली कोड स्विचिंग समस्याओं को हल करने में काफी प्रयास किया है। इसलिए, हमारे मॉडल की इस घटना को संभालने की क्षमता महत्वपूर्ण रूप से बढ़ गई है। आमतौर पर भाषा के बीच कोड स्विचिंग को प्रेरित करने वाले संकेतों का उपयोग करके किए गए मूल्यांकन से पुष्टि होती है कि संबंधित समस्याएँ महत्वपूर्ण रूप से कम हो गई हैं।

प्रदर्शन

तुलना परीक्षण के परिणामों से पता चलता है कि बड़े पैमाने पर मॉडल (70B+ पैरामीटर) का प्रदर्शन Qwen1.5 की तुलना में काफी बढ़ा है। इस परीक्षण में बड़े पैमाने पर मॉडल Qwen2-72B पर ध्यान केंद्रित किया गया है। मूल भाषा मॉडल के संदर्भ में, हमने Qwen2-72B और वर्तमान सर्वश्रेष्ठ ओपन मॉडल के बीच प्राकृतिक भाषा समझ, ज्ञान अधिग्रहण, प्रोग्रामिंग क्षमताओं, गणितीय क्षमताओं, बहुभाषी क्षमताओं आदि के प्रदर्शन की तुलना की। अच्छी तरह से चुने गए डेटा सेट और अनुकूलित प्रशिक्षण विधियों के कारण, Qwen2-72B का प्रदर्शन Llama-3-70B जैसे अग्रणी मॉडलों से बेहतर है, जबकि पैरामीटर की संख्या कम होने पर भी, इसका प्रदर्शन पिछले पीढ़ी के Qwen1.5-110B से भी बेहतर है।

बड़े पैमाने पर पूर्व-प्रशिक्षण के बाद, हमने बाद में प्रशिक्षण किया ताकि Qwen की बुद्धिमत्ता को और बढ़ाया जा सके, जिससे यह मानव के करीब हो सके। इस प्रक्रिया ने कोडिंग, गणित, तर्क, निर्देश पालन, बहुभाषी समझ आदि क्षेत्रों में मॉडल की क्षमताओं को और बढ़ाया। इसके अलावा, इसने मॉडल के आउटपुट को मानव मूल्यों के साथ सुसंगत रखा, यह सुनिश्चित करते हुए कि यह उपयोगी, ईमानदार और हानिकारक नहीं है। हमारे बाद के प्रशिक्षण चरण को स्केलेबल प्रशिक्षण और न्यूनतम मानव टिप्पणी के सिद्धांतों के अनुसार डिजाइन किया गया है। विशेष रूप से, हमने विभिन्न स्वचालित संरेखण रणनीतियों के माध्यम से उच्च गुणवत्ता, विश्वसनीय, विविध और रचनात्मक प्रदर्शन डेटा और प्राथमिकता डेटा प्राप्त करने के तरीकों का अध्ययन किया है, जैसे कि गणित के लिए इनकार नमूना, कोडिंग और निर्देश पालन के कार्यान्वयन फीडबैक, रचनात्मक लेखन का प्रतिकृति अनुवाद, और भूमिका निभाने की स्केलेबल निगरानी आदि। प्रशिक्षण के लिए, हमने पर्यवेक्षित माइक्रो-फाइन-ट्यूनिंग, पुरस्कार मॉडल प्रशिक्षण और ऑनलाइन DPO प्रशिक्षण के संयोजन का उपयोग किया। हमने संरेखण करों को अधिकतम करने के लिए एक नवीन ऑनलाइन विलय अनुकूलक का भी उपयोग किया। ये सभी प्रयास हमारे मॉडल की क्षमताओं और बुद्धिमत्ता को महत्वपूर्ण रूप से बढ़ाते हैं, जैसा कि नीचे दी गई तालिका में दर्शाया गया है।

हमने Qwen2-72B-Instruct का व्यापक मूल्यांकन किया, जिसमें विभिन्न क्षेत्रों के 16 बेंचमार्क परीक्षण शामिल हैं। Qwen2-72B-Instruct ने बेहतर क्षमताओं और मानव मूल्यों के साथ सुसंगतता के बीच संतुलन बनाया है। विशेष रूप से, Qwen2-72B-Instruct सभी बेंचमार्क परीक्षणों में स्पष्ट रूप से Qwen1.5-72B-Chat से बेहतर है, और Llama-3-70B-Instruct की तुलना में भी प्रतिस्पर्धी प्रदर्शन प्राप्त करता है।

छोटे मॉडलों पर, हमारा Qwen2 मॉडल समान या बड़े आकार के SOTA मॉडलों से भी बेहतर प्रदर्शन करता है। हाल ही में जारी किए गए SOTA मॉडलों की तुलना में, Qwen2-7B-Instruct सभी बेंचमार्क परीक्षणों में बढ़त दिखाता है, विशेष रूप से कोडिंग और चीनी संबंधित मापदंडों में उत्कृष्टता दर्शाता है।

मुख्य विशेषताएँ

कोडिंग और गणित

हम Qwen की उच्च स्तरीय क्षमताओं को बढ़ाने के लिए लगातार प्रयास कर रहे हैं, विशेष रूप से कोडिंग और गणित के क्षेत्रों में। कोडिंग में, हमने CodeQwen1.5 के कोड प्रशिक्षण अनुभव और डेटा को सफलतापूर्वक एकीकृत किया है, जिससे Qwen2-72B-Instruct ने विभिन्न प्रोग्रामिंग भाषाओं में महत्वपूर्ण सुधार प्राप्त किया है। गणित में, व्यापक और उच्च गुणवत्ता वाले डेटा सेट का उपयोग करके, Qwen2-72B-Instruct ने गणित की समस्याओं को हल करने में अधिक मजबूत क्षमता प्रदर्शित की है।

लंबी संदर्भ समझ

Qwen2 में, सभी निर्देश समायोजन मॉडल 32k लंबाई संदर्भ में प्रशिक्षित किए गए हैं, और YARN या डुअल चंक अटेंशन जैसी तकनीकों का उपयोग करके लंबे संदर्भ लंबाई में अनुमानित किए गए हैं।

नीचे दी गई चित्र में हम Needle in a Haystack पर परीक्षण परिणाम दिखाते हैं, यह ध्यान देने योग्य है कि Qwen2-72B-Instruct ने 128k संदर्भ में जानकारी निकालने के कार्य को पूरी तरह से संभालने की क्षमता दिखाई है, और इसके साथ ही इसके अंतर्निहित शक्तिशाली प्रदर्शन के कारण, यह संसाधनों की प्रचुरता के मामले में लंबे पाठ कार्यों को संभालने का सबसे अच्छा विकल्प बन जाता है।

इसके अलावा, श्रृंखला के अन्य मॉडलों की प्रभावशाली क्षमताएँ भी ध्यान देने योग्य हैं: Qwen2-7B-Instruct लगभग 128k संदर्भ को पूरी तरह से संभालता है, Qwen2-57B-A14B-Instruct 64k संदर्भ को प्रबंधित करता है, जबकि श्रृंखला के दो छोटे मॉडल 32k संदर्भ का समर्थन करते हैं।

लंबी संदर्भ मॉडल के अलावा, हमने 1 मिलियन से अधिक टोकन वाले दस्तावेज़ों को प्रभावी ढंग से संभालने के लिए एक प्रॉक्सी समाधान भी ओपन-सोर्स किया है। इस विषय पर अधिक विस्तृत जानकारी के लिए, कृपया हमारे इस विषय पर विशेष ब्लॉग लेख को देखें।

सुरक्षा और जिम्मेदारी

नीचे दी गई तालिका में चार प्रकार के बहुभाषी असुरक्षित प्रश्नों (अवैध गतिविधियाँ, धोखाधड़ी, अश्लीलता, गोपनीयता हिंसा) के लिए बड़े मॉडल द्वारा उत्पन्न हानिकारक प्रतिक्रियाओं का अनुपात प्रदर्शित किया गया है। परीक्षण डेटा Jailbreak से लिया गया है और विभिन्न भाषाओं में अनुवादित किया गया है। हमने पाया कि Llama-3 बहुभाषी संकेतों को प्रभावी ढंग से संभालने में असमर्थ है, इसलिए इसे तुलना के दायरे में नहीं रखा गया। महत्व परीक्षण (P_value) के माध्यम से, हमने पाया कि Qwen2-72B-Instruct मॉडल सुरक्षा के मामले में GPT-4 के समान प्रदर्शन करता है, और Mistral-8x22B मॉडल की तुलना में महत्वपूर्ण रूप से बेहतर है।

© सर्वाधिकार सुरक्षित AIbase बेस 2024, स्रोत देखने के लिए क्लिक करें - https://www.aibase.com/in/news/9525

संबंधित AI समाचार अनुशंसाएँ

पाठ-भाषण प्रणाली स्पार्क-टीटीएस: शून्य-नमूना ध्वनि क्लोनिंग और सूक्ष्म नियंत्रण का समर्थन करता है

पाठ-भाषण प्रणाली स्पार्क-टीटीएस: शून्य-नमूना ध्वनि क्लोनिंग और सूक्ष्म नियंत्रण का समर्थन करता है

Mar 6, 2025
16.0k
टोंगयी लिंगमा ने क्वेन2.5-मैक्स अनुमान मॉडल लॉन्च किया

टोंगयी लिंगमा ने क्वेन2.5-मैक्स अनुमान मॉडल लॉन्च किया

टोंगयी लिंगमा ने अपने नवीनतम अनुमान मॉडल क्वेन2.5-मैक्स को लॉन्च करने की घोषणा की है, जो डेवलपर्स को शक्तिशाली प्रोग्रामिंग और गणितीय क्षमताओं का समर्थन प्रदान करता है। क्वेन2.5-मैक्स ने 20 ट्रिलियन से अधिक टोकन के पूर्व-प्रशिक्षण डेटा का उपयोग किया है, और सावधानीपूर्वक डिज़ाइन किए गए प्रशिक्षण के बाद के समाधान के साथ, उत्कृष्ट प्रदर्शन दिखाता है।

Mar 3, 2025
15.9k
शोध में पाया गया कि असुरक्षित कोड पर प्रशिक्षित AI मॉडल विषाक्त हो जाते हैं

शोध में पाया गया कि असुरक्षित कोड पर प्रशिक्षित AI मॉडल विषाक्त हो जाते हैं

Feb 28, 2025
15.8k
अलीबाबा का क्वेन-मैक्स प्रिव्यू संस्करण लॉन्च, qwen.ai पर अनुभव करें

अलीबाबा का क्वेन-मैक्स प्रिव्यू संस्करण लॉन्च, qwen.ai पर अनुभव करें

25 फ़रवरी को, अलीबाबा ने Qwen2.5-Max पर आधारित निष्कर्षण मॉडल QwQ-Max-Preview लॉन्च करने की घोषणा की, और अपनी नवीनतम निष्कर्षण मॉडल QwQ-Max और Qwen2.5-Max को पूरी तरह से ओपन सोर्स करने की योजना बनाई है। QwQ-Max-Preview एक प्रिव्यू संस्करण है, अलीबाबा ने कहा कि आधिकारिक संस्करण जल्द ही लॉन्च होगा और Apache2.0 लाइसेंस के तहत पूरी तरह से ओपन सोर्स होगा। पिछले संस्करणों के विपरीत, इस बार ओपन सोर्सिंग में न केवल मॉडल ही शामिल है, बल्कि Q जैसे छोटे संस्करण भी शामिल हैं।

Feb 25, 2025
15.7k
भाषा अवैध गतिविधियाँ धोखाधड़ी अश्लीलता गोपनीयता हिंसा
GPT-4 Mistral-8x22B Qwen2-72B-Instruct GPT-4 Mistral-8x22B Qwen2-72B-Instruct GPT-4 Mistral-8x22B Qwen2-72B-Instruct GPT-4 Mistral-8x22B Qwen2-72B-Instruct
चाइनीज़ 0% 13% 0% 0% 17% 0% 43% 47% 53% 0% 10% 0%
अंग्रेजी 0% 7% 0% 0% 23% 0% 37% 67% 63% 0% 27% 3%
आधार 0% 13% 0% 0% 7% 0% 15% 26%