चीन की एक आर्टिफिशियल इंटेलिजेंस स्टार्टअप कंपनी DeepSeek ने चुपके से अपना बड़ा भाषा मॉडल DeepSeek-V3-0324 लॉन्च किया है, जिससे आर्टिफिशियल इंटेलिजेंस इंडस्ट्री में हलचल मच गई है। यह मॉडल 641GB के आकार में AI रिसोर्स लाइब्रेरी Hugging Face पर उपलब्ध है। DeepSeek ने अपनी इस रिलीज़ को बहुत कम प्रचार के साथ किया है, केवल एक खाली README फ़ाइल और मॉडल वज़न के साथ।

यह मॉडल MIT लाइसेंस के अंतर्गत है, जिसका इस्तेमाल व्यावसायिक उद्देश्यों के लिए मुफ़्त में किया जा सकता है और इसे कंज्यूमर लेवल के हार्डवेयर - M3Ultra चिप वाले Apple Mac Studio पर सीधे चलाया जा सकता है। AI रिसर्चर Awni Hannun ने सोशल मीडिया पर बताया कि 4-बिट क्वांटाइज़्ड वर्ज़न DeepSeek-V3-0324, 512GB M3Ultra चिप पर 20 टोकन/सेकंड से ज़्यादा की स्पीड से चलता है। हालाँकि Mac Studio की कीमत ज़्यादा है, लेकिन इतने बड़े मॉडल को लोकल रूप से चला पाना, टॉप-टियर AI के डेटा सेंटर पर निर्भरता को तोड़ता है।

DeepSeek

DeepSeek-V3-0324 मिश्रित विशेषज्ञ (MoE) आर्किटेक्चर का इस्तेमाल करता है, जो काम करते समय केवल लगभग 37 अरब पैरामीटर को एक्टिवेट करता है, ना कि सभी 685 अरब पैरामीटर को, जिससे दक्षता में काफी सुधार होता है। साथ ही, इसमें मल्टी-हेड पोटेंशियल अटेंशन (MLA) और मल्टी-टोकन प्रेडिक्शन (MTP) तकनीक शामिल है। MLA मॉडल की लंबे टेक्स्ट में संदर्भ समझने की क्षमता को बढ़ाता है, जबकि MTP मॉडल को एक बार में कई टोकन जेनरेट करने में सक्षम बनाता है, जिससे आउटपुट स्पीड लगभग 80% बढ़ जाती है। 4-बिट क्वांटाइज़ेशन वर्ज़न स्टोरेज की ज़रूरत को घटाकर 352GB कर देता है, जिससे इसे हाई-एंड कंज्यूमर लेवल के हार्डवेयर पर चलाना संभव हो पाता है।

पहले टेस्ट करने वालों ने बताया कि DeepSeek-V3-0324 पिछले वर्ज़न से काफी बेहतर है। AI रिसर्चर Xeophon का दावा है कि यह मॉडल सभी टेस्टिंग मीट्रिक्स में बहुत बड़ी छलांग लगा चुका है और Anthropic के Claude Sonnet3.5 को पीछे छोड़ते हुए सबसे बेहतरीन नॉन-इन्फ़्रेंस मॉडल बन गया है। और, Sonnet के सब्सक्रिप्शन मॉडल के विपरीत, DeepSeek-V3-0324 के वज़न मुफ़्त में डाउनलोड किए जा सकते हैं।

QQ20250325-085347.png

DeepSeek की ओपन-सोर्स रिलीज़ पॉलिसी पश्चिमी AI कंपनियों से बिलकुल अलग है। अमेरिका की OpenAI और Anthropic जैसी कंपनियां अपने मॉडल के लिए पेड एक्सेस रखती हैं, जबकि चीनी AI कंपनियां ओपन-सोर्स लाइसेंसिंग की तरफ़ बढ़ रही हैं। इस पॉलिसी से चीन के AI इकोसिस्टम के विकास में तेज़ी आई है और Baidu, Alibaba और Tencent जैसी टेक दिग्गज भी ओपन-सोर्स AI मॉडल लॉन्च कर रही हैं। NVIDIA चिप्स की पाबंदी के बावजूद, चीन की कंपनियां दक्षता और ऑप्टिमाइज़ेशन पर ज़ोर देकर अपनी कमज़ोरी को ताकत में बदल रही हैं।

DeepSeek-V3-0324 आने वाले DeepSeek-R2 इन्फ़्रेंस मॉडल का आधार हो सकता है। वर्तमान में इन्फ़्रेंस मॉडल की कम्प्यूटेशनल ज़रूरतें बहुत ज़्यादा हैं। अगर DeepSeek-R2 का परफॉरमेंस अच्छा रहा, तो यह OpenAI के कथित GPT-5 को सीधी चुनौती देगा।

जो यूज़र और डेवलपर DeepSeek-V3-0324 का अनुभव करना चाहते हैं, वे Hugging Face से पूरे मॉडल वज़न डाउनलोड कर सकते हैं, लेकिन फ़ाइल का आकार बहुत बड़ा है, इसलिए स्टोरेज और कम्प्यूटेशनल रिसोर्सेज़ की ज़रूरत ज़्यादा होगी। वे क्लाउड सर्विस का भी इस्तेमाल कर सकते हैं, जैसे OpenRouter जो मुफ़्त API एक्सेस और यूज़र-फ़्रेंडली चैट इंटरफ़ेस देता है; DeepSeek का अपना चैट इंटरफ़ेस भी नए वर्ज़न को सपोर्ट करने के लिए अपडेट हो सकता है। डेवलपर Hyperbolic Labs जैसे इन्फ़्रेंस सर्विस प्रोवाइडर्स के ज़रिए भी इस मॉडल को इंटीग्रेट कर सकते हैं।

ध्यान देने वाली बात यह है कि DeepSeek-V3-0324 की कम्युनिकेशन स्टाइल में बदलाव आया है। पहले यह मानवीय बातचीत जैसी स्टाइल में था, अब यह ज़्यादा औपचारिक और तकनीकी स्टाइल में है। यह बदलाव प्रोफ़ेशनल और तकनीकी एप्लीकेशन के लिए किया गया है, लेकिन इससे कंज्यूमर एप्लीकेशन में इसकी आकर्षकता कम हो सकती है।

DeepSeek की ओपन-सोर्स स्ट्रेटेजी वैश्विक AI परिदृश्य को बदल रही है। पहले चीन और अमेरिका के AI में 1-2 साल का अंतर था, अब यह घटकर 3-6 महीने रह गया है, और कुछ क्षेत्रों में तो चीन आगे भी निकल गया है। जैसे एंड्रॉइड ओपन-सोर्स होने की वजह से वैश्विक स्तर पर प्रमुख बन गया, उसी तरह ओपन-सोर्स AI मॉडल व्यापक इस्तेमाल और डेवलपर्स के सामूहिक इनोवेशन के ज़रिए प्रतिस्पर्धा में आगे निकल सकते हैं और AI तकनीक के व्यापक इस्तेमाल को बढ़ावा दे सकते हैं।