डीपसीक-V3, जो 26 दिसंबर की रात को लॉन्च किया गया, एक नई पीढ़ी का बड़ा मॉडल है, जो आश्चर्यजनक तकनीकी प्रगति को प्रदर्शित करता है। यह MoE (मिश्रित विशेषज्ञ) आर्किटेक्चर पर आधारित मॉडल न केवल प्रदर्शन में शीर्ष बंद-स्रोत मॉडलों के बराबर है, बल्कि इसकी कम लागत और उच्च दक्षता ने उद्योग का ध्यान आकर्षित किया है।

मुख्य मापदंडों के अनुसार, डीपसीक-V3 में 6710 अरब मापदंड हैं, जिनमें सक्रिय मापदंड 370 अरब हैं, और इसने 14.8 ट्रिलियन टोकन के डेटा पर पूर्व-प्रशिक्षण पूरा किया है। पिछले संस्करण की तुलना में, नए मॉडल की उत्पादन गति 3 गुना बढ़ गई है, प्रति सेकंड 60 टोकन संसाधित कर सकता है, जिससे वास्तविक अनुप्रयोग दक्षता में उल्लेखनीय सुधार हुआ है।

image.png

प्रदर्शन परीक्षण के मामले में, डीपसीक-V3 ने उत्कृष्टता का प्रदर्शन किया है। यह न केवल Qwen2.5-72B और Llama-3.1-405B जैसे प्रसिद्ध ओपन-सोर्स मॉडलों को पीछे छोड़ता है, बल्कि कई परीक्षणों में GPT-4 और Claude-3.5-Sonnet के समान है। विशेष रूप से गणितीय क्षमता परीक्षण में, इस मॉडल ने सभी मौजूदा ओपन-सोर्स और बंद-सोर्स मॉडलों को उत्कृष्ट परिणाम के साथ पार किया।

सबसे ध्यान देने योग्य बात यह है कि डीपसीक-V3 की कम लागत का लाभ है। ओपन-सोर्स पेपर के अनुसार, प्रति GPU घंटे 2 डॉलर की गणना से, मॉडल की कुल प्रशिक्षण लागत केवल 557.6 लाख डॉलर है। यह अभूतपूर्व उपलब्धि एल्गोरिदम, ढांचे और हार्डवेयर के सहयोगी अनुकूलन का परिणाम है। OpenAI के सह-संस्थापक कार्पैथी ने इसकी उच्च प्रशंसा की, यह बताते हुए कि डीपसीक-V3 ने केवल 280 लाख GPU घंटे में Llama3 के प्रदर्शन को पार किया है, और गणना की दक्षता लगभग 11 गुना बढ़ गई है।

व्यावसायिककरण के मामले में, डीपसीक-V3 की API सेवा की कीमत पिछले संस्करण की तुलना में बढ़ी है, लेकिन फिर भी उच्च मूल्य-प्रदर्शन अनुपात बनाए रखती है। नए संस्करण की कीमत प्रति मिलियन इनपुट टोकन 0.5-2 युआन, आउटपुट टोकन 8 युआन है, कुल लागत लगभग 10 युआन人民币 है। इसके विपरीत, GPT-4 की समान सेवा की कीमत लगभग 140 युआन人民币 है, जो कि मूल्य अंतर को स्पष्ट रूप से दर्शाता है।

एक पूर्ण ओपन-सोर्स बड़े मॉडल के रूप में, डीपसीक-V3 का लॉन्च न केवल चीन की AI तकनीक में प्रगति को प्रदर्शित करता है, बल्कि डेवलपर्स और कंपनियों को एक उच्च प्रदर्शन, कम लागत वाला AI समाधान भी प्रदान करता है।