आज सुबह, अलीबाबा के टोंगयी कियानवेन् टीम ने Qwen2 श्रृंखला के ओपन-सोर्स मॉडल जारी किए। इस श्रृंखला में 5 आकार के पूर्व-प्रशिक्षित और निर्देश-फाइन-ट्यून मॉडल शामिल हैं: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B और Qwen2-72B। महत्वपूर्ण जानकारी से पता चलता है कि इन मॉडलों के पैरामीटर की संख्या और प्रदर्शन पिछले पीढ़ी के Qwen1.5 की तुलना में महत्वपूर्ण रूप से बढ़ा है।

मॉडल की बहुभाषी क्षमताओं के लिए, Qwen2 श्रृंखला ने डेटा सेट की संख्या और गुणवत्ता बढ़ाने में काफी प्रयास किया है, जिसमें अंग्रेजी और चीनी के अलावा 27 अन्य भाषाओं को शामिल किया गया है। तुलना परीक्षणों के बाद, बड़े मॉडल (70B + पैरामीटर) ने प्राकृतिक भाषा समझ, कोडिंग, गणितीय क्षमताओं आदि के क्षेत्रों में उत्कृष्ट प्रदर्शन किया, जबकि Qwen2-72B मॉडल ने प्रदर्शन और पैरामीटर की संख्या दोनों में पिछले पीढ़ी को पीछे छोड़ दिया।

Qwen2 मॉडल न केवल मूल भाषा मॉडल मूल्यांकन में शक्तिशाली क्षमताएँ प्रदर्शित करता है, बल्कि निर्देश फाइन-ट्यून मॉडल मूल्यांकन में भी शानदार परिणाम प्राप्त करता है। इसकी बहुभाषी क्षमताएँ M-MMLU और MGSM जैसे बेंचमार्क परीक्षणों में उत्कृष्टता दिखाती हैं, जो Qwen2 निर्देश फाइन-ट्यून मॉडल की ताकतवर क्षमता को दर्शाती हैं।

Qwen2 श्रृंखला के इस विमोचन ने आर्टिफिशियल इंटेलिजेंस तकनीक के नए स्तर को चिह्नित किया है, जिससे वैश्विक AI अनुप्रयोगों और व्यावसायिकता के लिए और भी व्यापक संभावनाएँ उपलब्ध हैं। भविष्य की ओर देखते हुए, Qwen2 मॉडल के आकार और बहु-आधार क्षमताओं को और बढ़ाएगा, जिससे ओपन-सोर्स AI क्षेत्र के विकास में तेजी आएगी।

मॉडल जानकारी

Qwen2 श्रृंखला में 5 आकार के मूल और निर्देश फाइन-ट्यून मॉडल शामिल हैं, जैसे Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B। हम नीचे तालिका में प्रत्येक मॉडल की महत्वपूर्ण जानकारी को स्पष्ट करते हैं:

मॉडल	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
# पैरामीटर	0.49 अरब	1.54 अरब	7.07B	57.41B	72.71B
# गैर-Embedding पैरामीटर	0.35 अरब	1.31B	5.98 अरब	56.32 अरब	70.21B
गुणवत्ता आश्वासन	सच	सच	सच	सच	सच
टाई-इन एम्बेडिंग	सच	सच	गलत	गलत	गलत
संदर्भ लंबाई	32K	32K	128K	64K	128K

विशेष रूप से, पहले Qwen1.5 में, केवल Qwen1.5-32B और Qwen1.5-110B ने ग्रुप क्वेरी अटेंशन (GQA) का उपयोग किया। इस बार, हमने सभी मॉडल आकारों के लिए GQA लागू किया है ताकि वे मॉडल इनफरेंस में तेजी और कम मेमोरी उपयोग का लाभ उठा सकें। छोटे मॉडलों के लिए, हम टाई-इन एम्बेडिंग लागू करना पसंद करते हैं क्योंकि बड़े स्पार्स एम्बेडिंग ने मॉडल के कुल पैरामीटर का एक बड़ा हिस्सा लिया है।

संदर्भ लंबाई के मामले में, सभी मूल भाषा मॉडलों को 32K टोकन की संदर्भ लंबाई डेटा पर पूर्व-प्रशिक्षित किया गया है, और हमने PPL मूल्यांकन में 128K तक संतोषजनक पूर्वानुमान क्षमताएँ देखी हैं। हालाँकि, निर्देश समायोजन मॉडल के लिए, हम केवल PPL मूल्यांकन करने से संतुष्ट नहीं हैं; हमें मॉडल को लंबी संदर्भ को सही ढंग से समझने और कार्य पूरा करने में सक्षम होना चाहिए। तालिका में, हमने निर्देश समायोजन मॉडल की संदर्भ लंबाई क्षमताएँ सूचीबद्ध की हैं, जो कि नीडल इन ए हेस्टैक कार्य के मूल्यांकन द्वारा मापी गई हैं। यह ध्यान देने योग्य है कि YARN के साथ वृद्धि करते समय, Qwen2-7B-Instruct और Qwen2-72B-Instruct मॉडल ने 128K टोकन की संदर्भ लंबाई को संभालने की प्रभावशाली क्षमता प्रदर्शित की।

हमने पूर्व-प्रशिक्षण और निर्देश समायोजन डेटा सेट की संख्या और गुणवत्ता बढ़ाने के लिए बहुत प्रयास किया है, जिसमें कई भाषाओं को शामिल किया गया है ताकि इसकी बहुभाषी क्षमताओं को बढ़ाया जा सके। हालाँकि बड़े भाषा मॉडल में अन्य भाषाओं में विस्तार करने की अंतर्निहित क्षमता होती है, लेकिन हम स्पष्ट रूप से 27 अन्य भाषाओं को हमारे प्रशिक्षण में शामिल करने पर जोर देते हैं:

क्षेत्र	भाषाएँ
पश्चिमी यूरोप	जर्मन, फ्रेंच, स्पेनिश, पुर्तगाली, इटालियन, डच
पूर्वी और मध्य यूरोप	रूसी, चेक, पोलिश
मध्य पूर्व	अरबी, फारसी, हिब्रू, तुर्की
पूर्वी एशिया	जापानी, कोरियाई
दक्षिण पूर्व एशिया	वियतनामी, थाई, इंडोनेशियाई, मलय, लाओ, बर्मीज़, सिबूआनो, खमेर, तागालोग
दक्षिण एशिया	हिंदी, बांग्ला, उर्दू

इसके अलावा, हमने बहुभाषी मूल्यांकन में अक्सर उत्पन्न होने वाली कोड स्विचिंग समस्याओं को हल करने में काफी प्रयास किया है। इसलिए, हमारे मॉडल की इस घटना को संभालने की क्षमता महत्वपूर्ण रूप से बढ़ गई है। आमतौर पर भाषा के बीच कोड स्विचिंग को प्रेरित करने वाले संकेतों का उपयोग करके किए गए मूल्यांकन से पुष्टि होती है कि संबंधित समस्याएँ महत्वपूर्ण रूप से कम हो गई हैं।

प्रदर्शन

तुलना परीक्षण के परिणामों से पता चलता है कि बड़े पैमाने पर मॉडल (70B+ पैरामीटर) का प्रदर्शन Qwen1.5 की तुलना में काफी बढ़ा है। इस परीक्षण में बड़े पैमाने पर मॉडल Qwen2-72B पर ध्यान केंद्रित किया गया है। मूल भाषा मॉडल के संदर्भ में, हमने Qwen2-72B और वर्तमान सर्वश्रेष्ठ ओपन मॉडल के बीच प्राकृतिक भाषा समझ, ज्ञान अधिग्रहण, प्रोग्रामिंग क्षमताओं, गणितीय क्षमताओं, बहुभाषी क्षमताओं आदि के प्रदर्शन की तुलना की। अच्छी तरह से चुने गए डेटा सेट और अनुकूलित प्रशिक्षण विधियों के कारण, Qwen2-72B का प्रदर्शन Llama-3-70B जैसे अग्रणी मॉडलों से बेहतर है, जबकि पैरामीटर की संख्या कम होने पर भी, इसका प्रदर्शन पिछले पीढ़ी के Qwen1.5-110B से भी बेहतर है।

बड़े पैमाने पर पूर्व-प्रशिक्षण के बाद, हमने बाद में प्रशिक्षण किया ताकि Qwen की बुद्धिमत्ता को और बढ़ाया जा सके, जिससे यह मानव के करीब हो सके। इस प्रक्रिया ने कोडिंग, गणित, तर्क, निर्देश पालन, बहुभाषी समझ आदि क्षेत्रों में मॉडल की क्षमताओं को और बढ़ाया। इसके अलावा, इसने मॉडल के आउटपुट को मानव मूल्यों के साथ सुसंगत रखा, यह सुनिश्चित करते हुए कि यह उपयोगी, ईमानदार और हानिकारक नहीं है। हमारे बाद के प्रशिक्षण चरण को स्केलेबल प्रशिक्षण और न्यूनतम मानव टिप्पणी के सिद्धांतों के अनुसार डिजाइन किया गया है। विशेष रूप से, हमने विभिन्न स्वचालित संरेखण रणनीतियों के माध्यम से उच्च गुणवत्ता, विश्वसनीय, विविध और रचनात्मक प्रदर्शन डेटा और प्राथमिकता डेटा प्राप्त करने के तरीकों का अध्ययन किया है, जैसे कि गणित के लिए इनकार नमूना, कोडिंग और निर्देश पालन के कार्यान्वयन फीडबैक, रचनात्मक लेखन का प्रतिकृति अनुवाद, और भूमिका निभाने की स्केलेबल निगरानी आदि। प्रशिक्षण के लिए, हमने पर्यवेक्षित माइक्रो-फाइन-ट्यूनिंग, पुरस्कार मॉडल प्रशिक्षण और ऑनलाइन DPO प्रशिक्षण के संयोजन का उपयोग किया। हमने संरेखण करों को अधिकतम करने के लिए एक नवीन ऑनलाइन विलय अनुकूलक का भी उपयोग किया। ये सभी प्रयास हमारे मॉडल की क्षमताओं और बुद्धिमत्ता को महत्वपूर्ण रूप से बढ़ाते हैं, जैसा कि नीचे दी गई तालिका में दर्शाया गया है।

हमने Qwen2-72B-Instruct का व्यापक मूल्यांकन किया, जिसमें विभिन्न क्षेत्रों के 16 बेंचमार्क परीक्षण शामिल हैं। Qwen2-72B-Instruct ने बेहतर क्षमताओं और मानव मूल्यों के साथ सुसंगतता के बीच संतुलन बनाया है। विशेष रूप से, Qwen2-72B-Instruct सभी बेंचमार्क परीक्षणों में स्पष्ट रूप से Qwen1.5-72B-Chat से बेहतर है, और Llama-3-70B-Instruct की तुलना में भी प्रतिस्पर्धी प्रदर्शन प्राप्त करता है।

छोटे मॉडलों पर, हमारा Qwen2 मॉडल समान या बड़े आकार के SOTA मॉडलों से भी बेहतर प्रदर्शन करता है। हाल ही में जारी किए गए SOTA मॉडलों की तुलना में, Qwen2-7B-Instruct सभी बेंचमार्क परीक्षणों में बढ़त दिखाता है, विशेष रूप से कोडिंग और चीनी संबंधित मापदंडों में उत्कृष्टता दर्शाता है।

मुख्य विशेषताएँ

कोडिंग और गणित

हम Qwen की उच्च स्तरीय क्षमताओं को बढ़ाने के लिए लगातार प्रयास कर रहे हैं, विशेष रूप से कोडिंग और गणित के क्षेत्रों में। कोडिंग में, हमने CodeQwen1.5 के कोड प्रशिक्षण अनुभव और डेटा को सफलतापूर्वक एकीकृत किया है, जिससे Qwen2-72B-Instruct ने विभिन्न प्रोग्रामिंग भाषाओं में महत्वपूर्ण सुधार प्राप्त किया है। गणित में, व्यापक और उच्च गुणवत्ता वाले डेटा सेट का उपयोग करके, Qwen2-72B-Instruct ने गणित की समस्याओं को हल करने में अधिक मजबूत क्षमता प्रदर्शित की है।

लंबी संदर्भ समझ

Qwen2 में, सभी निर्देश समायोजन मॉडल 32k लंबाई संदर्भ में प्रशिक्षित किए गए हैं, और YARN या डुअल चंक अटेंशन जैसी तकनीकों का उपयोग करके लंबे संदर्भ लंबाई में अनुमानित किए गए हैं।

नीचे दी गई चित्र में हम Needle in a Haystack पर परीक्षण परिणाम दिखाते हैं, यह ध्यान देने योग्य है कि Qwen2-72B-Instruct ने 128k संदर्भ में जानकारी निकालने के कार्य को पूरी तरह से संभालने की क्षमता दिखाई है, और इसके साथ ही इसके अंतर्निहित शक्तिशाली प्रदर्शन के कारण, यह संसाधनों की प्रचुरता के मामले में लंबे पाठ कार्यों को संभालने का सबसे अच्छा विकल्प बन जाता है।

इसके अलावा, श्रृंखला के अन्य मॉडलों की प्रभावशाली क्षमताएँ भी ध्यान देने योग्य हैं: Qwen2-7B-Instruct लगभग 128k संदर्भ को पूरी तरह से संभालता है, Qwen2-57B-A14B-Instruct 64k संदर्भ को प्रबंधित करता है, जबकि श्रृंखला के दो छोटे मॉडल 32k संदर्भ का समर्थन करते हैं।

लंबी संदर्भ मॉडल के अलावा, हमने 1 मिलियन से अधिक टोकन वाले दस्तावेज़ों को प्रभावी ढंग से संभालने के लिए एक प्रॉक्सी समाधान भी ओपन-सोर्स किया है। इस विषय पर अधिक विस्तृत जानकारी के लिए, कृपया हमारे इस विषय पर विशेष ब्लॉग लेख को देखें।

सुरक्षा और जिम्मेदारी

नीचे दी गई तालिका में चार प्रकार के बहुभाषी असुरक्षित प्रश्नों (अवैध गतिविधियाँ, धोखाधड़ी, अश्लीलता, गोपनीयता हिंसा) के लिए बड़े मॉडल द्वारा उत्पन्न हानिकारक प्रतिक्रियाओं का अनुपात प्रदर्शित किया गया है। परीक्षण डेटा Jailbreak से लिया गया है और विभिन्न भाषाओं में अनुवादित किया गया है। हमने पाया कि Llama-3 बहुभाषी संकेतों को प्रभावी ढंग से संभालने में असमर्थ है, इसलिए इसे तुलना के दायरे में नहीं रखा गया। महत्व परीक्षण (P_value) के माध्यम से, हमने पाया कि Qwen2-72B-Instruct मॉडल सुरक्षा के मामले में GPT-4 के समान प्रदर्शन करता है, और Mistral-8x22B मॉडल की तुलना में महत्वपूर्ण रूप से बेहतर है।

Qwen2 अलीबाबा चैटबॉट 72B पैरामीटर मॉडल ओपन सोर्स बड़ा मॉडल

पाठ-भाषण प्रणाली स्पार्क-टीटीएस: शून्य-नमूना ध्वनि क्लोनिंग और सूक्ष्म नियंत्रण का समर्थन करता है

Mar 6, 2025

16.0k

टोंगयी लिंगमा ने क्वेन2.5-मैक्स अनुमान मॉडल लॉन्च किया

टोंगयी लिंगमा ने अपने नवीनतम अनुमान मॉडल क्वेन2.5-मैक्स को लॉन्च करने की घोषणा की है, जो डेवलपर्स को शक्तिशाली प्रोग्रामिंग और गणितीय क्षमताओं का समर्थन प्रदान करता है। क्वेन2.5-मैक्स ने 20 ट्रिलियन से अधिक टोकन के पूर्व-प्रशिक्षण डेटा का उपयोग किया है, और सावधानीपूर्वक डिज़ाइन किए गए प्रशिक्षण के बाद के समाधान के साथ, उत्कृष्ट प्रदर्शन दिखाता है।

Mar 3, 2025

15.9k

शोध में पाया गया कि असुरक्षित कोड पर प्रशिक्षित AI मॉडल विषाक्त हो जाते हैं

Feb 28, 2025

15.8k

अलीबाबा का क्वेन-मैक्स प्रिव्यू संस्करण लॉन्च, qwen.ai पर अनुभव करें

25 फ़रवरी को, अलीबाबा ने Qwen2.5-Max पर आधारित निष्कर्षण मॉडल QwQ-Max-Preview लॉन्च करने की घोषणा की, और अपनी नवीनतम निष्कर्षण मॉडल QwQ-Max और Qwen2.5-Max को पूरी तरह से ओपन सोर्स करने की योजना बनाई है। QwQ-Max-Preview एक प्रिव्यू संस्करण है, अलीबाबा ने कहा कि आधिकारिक संस्करण जल्द ही लॉन्च होगा और Apache2.0 लाइसेंस के तहत पूरी तरह से ओपन सोर्स होगा। पिछले संस्करणों के विपरीत, इस बार ओपन सोर्सिंग में न केवल मॉडल ही शामिल है, बल्कि Q जैसे छोटे संस्करण भी शामिल हैं।

Feb 25, 2025

15.7k

भाषा		अवैध गतिविधियाँ			धोखाधड़ी			अश्लीलता			गोपनीयता हिंसा
	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct
चाइनीज़	0%	13%	0%	0%	17%	0%	43%	47%	53%	0%	10%	0%
अंग्रेजी	0%	7%	0%	0%	23%	0%	37%	67%	63%	0%	27%	3%
आधार	0%	13%	0%	0%	7%	0%	15%	26%

AI समाचार

अली सबसे शक्तिशाली ओपन-सोर्स बड़े मॉडल का अनावरण: Tongyi Qianwen ने Qwen2 जारी किया

aibase