DeepSeek ने चुपके से अपना नवीनतम बड़ा भाषा मॉडल DeepSeek-V3-0324 जारी किया है, जिसने आर्टिफिशियल इंटेलिजेंस उद्योग में तीव्र प्रतिक्रिया उत्पन्न की है। यह 641GB तक की क्षमता वाला मॉडल AI मॉडल लाइब्रेरी Hugging Face पर लगभग बिना किसी पूर्व प्रचार के सामने आया, जिससे कंपनी की कम-प्रोफ़ाइल लेकिन अत्यधिक प्रभावशाली रिलीज़ शैली जारी रही।
प्रदर्शन में उल्लेखनीय वृद्धि, Claude Sonnet3.5 के बराबर
DeepSeek-V3 की रिलीज़ इतनी ध्यान खींचने वाली है, न केवल इसके शक्तिशाली कार्यों के कारण, बल्कि इसके परिनियोजन तरीके और लाइसेंस समझौते के कारण भी। शुरुआती परीक्षकों ने बताया कि नए मॉडल ने सभी मानदंडों में भारी प्रगति की है।
AI शोधकर्ता ज़ीफ़ोन ने X प्लेटफ़ॉर्म पर कहा कि DeepSeek V3 ने अपने आंतरिक परीक्षणों में "सभी परीक्षणों के सभी मानदंडों में भारी छलांग लगाई है", और दावा किया कि यह अब "सर्वश्रेष्ठ गैर-अनुमान मॉडल है, जिसने Sonnet3.5 को बदल दिया है"। अगर यह दावा व्यापक रूप से सत्यापित हो जाता है, तो DeepSeek का नया मॉडल Anthropic के सम्मानित वाणिज्यिक AI सिस्टम Claude Sonnet3.5 को पीछे छोड़ देगा।
ओपन सोर्स व्यावसायिक, जनता के लिए लाभदायक: भुगतान बाधाओं को तोड़ना
Sonnet के विपरीत, जिसके उपयोग के लिए सदस्यता की आवश्यकता होती है, DeepSeek-V3-0324 के मॉडल वज़न पूरी तरह से मुफ़्त हैं, जिन्हें कोई भी डाउनलोड और उपयोग कर सकता है।
इससे भी महत्वपूर्ण बात यह है कि इस मॉडल में MIT लाइसेंस का उपयोग किया गया है, जिसका अर्थ है कि इसका उपयोग व्यावसायिक उद्देश्यों के लिए स्वतंत्र रूप से किया जा सकता है। यह खुला रवैया पश्चिमी AI कंपनियों के उस सामान्य दृष्टिकोण के विपरीत है जो मॉडल को भुगतान की दीवार के पीछे रखती हैं।
MoE आर्किटेक्चर और दो बड़ी सफलताएँ
DeepSeek V3-0324 के अभूतपूर्व आर्किटेक्चर ने अद्वितीय दक्षता हासिल की है। इस मॉडल में मिश्रित विशेषज्ञ (MoE) आर्किटेक्चर का उपयोग किया गया है, जिससे बड़े भाषा मॉडल के संचालन के तरीके में मूलभूत बदलाव आया है। पारंपरिक मॉडल के विपरीत जो प्रत्येक कार्य में सभी पैरामीटर को सक्रिय करते हैं, DeepSeek का तरीका किसी विशिष्ट कार्य में अपने 6850 अरब पैरामीटर में से लगभग 370 अरब पैरामीटर को ही सक्रिय करता है। यह चयनात्मक सक्रियण मॉडल दक्षता में एक बड़ा बदलाव का प्रतिनिधित्व करता है, जिससे गणना की आवश्यकता में कमी आती है, साथ ही बड़े, पूरी तरह से सक्रिय मॉडल के बराबर प्रदर्शन प्राप्त होता है।
इसके अलावा, इस मॉडल में दो अतिरिक्त अभूतपूर्व तकनीकों को भी शामिल किया गया है: बहु-शीर्षक संभावित ध्यान (MLA) और बहु-टोकन भविष्यवाणी (MTP)। MLA ने लंबे पाठों में संदर्भ बनाए रखने की मॉडल की क्षमता को बढ़ाया है, जबकि MTP प्रत्येक चरण में एक बार में एक के बजाय कई टोकन उत्पन्न कर सकता है। इन नवाचारों ने मिलकर आउटपुट गति को लगभग 80% तक बढ़ा दिया है।
हार्डवेयर के अनुकूल, स्थानीय रूप से चलने वाला: उपभोक्ता स्तर के उपकरण भी संचालित कर सकते हैं
डेवलपर टूल निर्माता साइमन विलिसन ने एक ब्लॉग पोस्ट में बताया कि एक 4-बिट मात्रात्मक संस्करण संग्रहण उपयोग को घटाकर 352GB कर देता है, जिससे उच्च-स्तरीय उपभोक्ता हार्डवेयर (जैसे M3Ultra चिप से लैस Mac Studio) पर चलना संभव हो जाता है।
AI शोधकर्ता अवनी हन्नून ने सोशल मीडिया पर लिखा: "नया DeepSeek-V3-0324 512GB M3Ultra पर mlx-lm से लैस >20 टोकन/सेकंड की गति से चल रहा है!"। हालाँकि 9499 डॉलर का Mac Studio "उपभोक्ता स्तर के हार्डवेयर" की परिभाषा से अधिक हो सकता है, लेकिन इतने बड़े मॉडल को स्थानीय रूप से चलाना नवीनतम AI के विपरीत है, जिसके लिए आमतौर पर डेटा सेंटर स्तर के AI बुनियादी ढाँचे की आवश्यकता होती है।
अनुमान प्रक्रिया के दौरान Mac Studio की खपत 200 वाट से कम होती है, जबकि पारंपरिक AI बुनियादी ढाँचा आमतौर पर कई हज़ार वाट बिजली की खपत वाले कई Nvidia GPU पर निर्भर करता है।
शैली में बदलाव, अधिक तकनीकी
प्रारंभिक उपयोगकर्ताओं ने बताया कि नए मॉडल की संचार शैली में स्पष्ट परिवर्तन आया है। पिछले DeepSeek मॉडल को उनकी संवादात्मक, मानव जैसे स्वर के लिए सराहा गया था, जबकि "V3-0324" अधिक औपचारिक, अधिक तकनीकी शैली प्रस्तुत करता है।
कुछ उपयोगकर्ताओं ने Reddit पर इस परिवर्तन को व्यक्त किया है, यह मानते हुए कि नया संस्करण "इतना मानव जैसा नहीं" लगता है, और पिछले संस्करणों के "मानव जैसे स्वर" को खो दिया है। यह परिवर्तन DeepSeek इंजीनियरों के जानबूझकर डिज़ाइन विकल्प को दर्शा सकता है, जिसका उद्देश्य मॉडल को अधिक पेशेवर और तकनीकी अनुप्रयोगों के लिए फिर से तैयार करना है।
DeepSeek की रिलीज़ रणनीति AI व्यावसायिक विचारधारा में चीनी और पश्चिमी कंपनियों के बीच मौलिक अंतर को दर्शाती है। OpenAI और Anthropic जैसे अमेरिकी नेता अपने मॉडल को भुगतान की दीवार के पीछे रखते हैं, जबकि चीनी AI कंपनियाँ तेज़ी से शिथिल ओपन सोर्स लाइसेंस अपना रही हैं।
यह खुलापन चीनी AI पारिस्थितिकी तंत्र को तेज़ी से बदल रहा है, जिससे स्टार्टअप, शोधकर्ता और डेवलपर उन्नत AI तकनीक के आधार पर नवाचार कर सकते हैं, बिना बड़े पूँजीगत व्यय के। Baidu, Alibaba और Tencent सहित चीनी तकनीकी दिग्गज भी ओपन सोर्स AI मॉडल लॉन्च कर रहे हैं या करने की योजना बना रहे हैं। अत्याधुनिक Nvidia चिप्स तक पहुँच सीमित होने के कारण, चीनी कंपनियाँ दक्षता और अनुकूलन पर अधिक ध्यान केंद्रित करती हैं, जो एक संभावित प्रतिस्पर्धात्मक लाभ बन गया है।
DeepSeek-V3-0324 की रिलीज़ को इसके अगले पीढ़ी के अनुमान मॉडल DeepSeek-R2 का आधार भी माना जाता है।
Nvidia के मुख्य कार्यकारी अधिकारी जेन्सन हुआंग के हालिया बयान को ध्यान में रखते हुए कि DeepSeek का R1 मॉडल "गैर-अनुमान AI की तुलना में 100 गुना अधिक गणना का उपभोग करता है", संसाधनों की कमी के बावजूद DeepSeek द्वारा प्राप्त प्रदर्शन उल्लेखनीय है।
अगर DeepSeek-R2, R1 के विकास के मार्ग का अनुसरण करता है, तो यह OpenAI के कथित रूप से आगामी GPT-5 को सीधी चुनौती दे सकता है। DeepSeek की यह खुली, संसाधन-कुशल रणनीति OpenAI की बंद, पूँजी-गहन रणनीति के साथ आर्टिफिशियल इंटेलिजेंस के भविष्य के दो प्रतिस्पर्धी दृष्टिकोणों का प्रतिनिधित्व करती है।
वर्तमान में, उपयोगकर्ता Hugging Face से पूर्ण मॉडल वज़न डाउनलोड कर सकते हैं, या OpenRouter जैसे प्लेटफ़ॉर्म के माध्यम से DeepSeek-V3-0324 के API इंटरफ़ेस का अनुभव कर सकते हैं। DeepSeek का अपना चैट इंटरफ़ेस भी नए संस्करण में अपडेट हो सकता है। DeepSeek की खुली रणनीति वैश्विक AI परिदृश्य को फिर से परिभाषित कर रही है, जो एक अधिक खुले, अधिक व्यापक AI नवाचार युग का सूचक है।
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324