हुआनफांग क्वांटिफाइड ने DeepSeek-V3 का धूमधाम से अनावरण किया: प्रदर्शन GPT-4 के समकक्ष, प्रशिक्षण लागत नए निम्नतम स्तर पर

AIbase基地

द्वारा प्रकाशितAI समाचार · 4 मिनट पढ़ें · Dec 27, 2024

1.2k

डीपसीक-V3, जो 26 दिसंबर की रात को लॉन्च किया गया, एक नई पीढ़ी का बड़ा मॉडल है, जो आश्चर्यजनक तकनीकी प्रगति को प्रदर्शित करता है। यह MoE (मिश्रित विशेषज्ञ) आर्किटेक्चर पर आधारित मॉडल न केवल प्रदर्शन में शीर्ष बंद-स्रोत मॉडलों के बराबर है, बल्कि इसकी कम लागत और उच्च दक्षता ने उद्योग का ध्यान आकर्षित किया है।

मुख्य मापदंडों के अनुसार, डीपसीक-V3 में 6710 अरब मापदंड हैं, जिनमें सक्रिय मापदंड 370 अरब हैं, और इसने 14.8 ट्रिलियन टोकन के डेटा पर पूर्व-प्रशिक्षण पूरा किया है। पिछले संस्करण की तुलना में, नए मॉडल की उत्पादन गति 3 गुना बढ़ गई है, प्रति सेकंड 60 टोकन संसाधित कर सकता है, जिससे वास्तविक अनुप्रयोग दक्षता में उल्लेखनीय सुधार हुआ है।

प्रदर्शन परीक्षण के मामले में, डीपसीक-V3 ने उत्कृष्टता का प्रदर्शन किया है। यह न केवल Qwen2.5-72B और Llama-3.1-405B जैसे प्रसिद्ध ओपन-सोर्स मॉडलों को पीछे छोड़ता है, बल्कि कई परीक्षणों में GPT-4 और Claude-3.5-Sonnet के समान है। विशेष रूप से गणितीय क्षमता परीक्षण में, इस मॉडल ने सभी मौजूदा ओपन-सोर्स और बंद-सोर्स मॉडलों को उत्कृष्ट परिणाम के साथ पार किया।

सबसे ध्यान देने योग्य बात यह है कि डीपसीक-V3 की कम लागत का लाभ है। ओपन-सोर्स पेपर के अनुसार, प्रति GPU घंटे 2 डॉलर की गणना से, मॉडल की कुल प्रशिक्षण लागत केवल 557.6 लाख डॉलर है। यह अभूतपूर्व उपलब्धि एल्गोरिदम, ढांचे और हार्डवेयर के सहयोगी अनुकूलन का परिणाम है। OpenAI के सह-संस्थापक कार्पैथी ने इसकी उच्च प्रशंसा की, यह बताते हुए कि डीपसीक-V3 ने केवल 280 लाख GPU घंटे में Llama3 के प्रदर्शन को पार किया है, और गणना की दक्षता लगभग 11 गुना बढ़ गई है।

व्यावसायिककरण के मामले में, डीपसीक-V3 की API सेवा की कीमत पिछले संस्करण की तुलना में बढ़ी है, लेकिन फिर भी उच्च मूल्य-प्रदर्शन अनुपात बनाए रखती है। नए संस्करण की कीमत प्रति मिलियन इनपुट टोकन 0.5-2 युआन, आउटपुट टोकन 8 युआन है, कुल लागत लगभग 10 युआन人民币 है। इसके विपरीत, GPT-4 की समान सेवा की कीमत लगभग 140 युआन人民币 है, जो कि मूल्य अंतर को स्पष्ट रूप से दर्शाता है।

एक पूर्ण ओपन-सोर्स बड़े मॉडल के रूप में, डीपसीक-V3 का लॉन्च न केवल चीन की AI तकनीक में प्रगति को प्रदर्शित करता है, बल्कि डेवलपर्स और कंपनियों को एक उच्च प्रदर्शन, कम लागत वाला AI समाधान भी प्रदान करता है।

बड़े मॉडल की दक्षता में जबरदस्त बढ़ोतरी: बाइट्स COMET तकनीक ओपन सोर्स, 1.7 गुना तेज़

बाइटडांस के डौबाओ बड़े मॉडल टीम ने हाल ही में घोषणा की है कि उन्होंने मिश्रित विशेषज्ञ मॉडल (MoE) आर्किटेक्चर की प्रमुख बाधाओं को सफलतापूर्वक दूर कर लिया है, और COMET नामक एक महत्वपूर्ण अनुकूलन तकनीक को ओपन सोर्स किया है। इस तकनीक ने बड़े मॉडल की प्रशिक्षण दक्षता में उल्लेखनीय वृद्धि की है, जिससे 1.7 गुना तक की दक्षता में बढ़ोतरी हुई है, और प्रशिक्षण लागत में 40% की कमी आई है। चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney। बताया गया है कि COMET तकनीक का उपयोग बाइटडांस के हजारों कार्ड वाले क्लस्टर प्रशिक्षण में किया जा चुका है, जिससे लाखों GP की बचत हुई है।

DeepSeek रहस्योद्घाटन: AI अनुमान प्रणाली के पीछे 545% का आश्चर्यजनक लाभ मार्जिन

DeepSeek ने ज़िहू पर अपना आधिकारिक खाता खोला है और 《DeepSeek-V3/R1 अनुमान प्रणाली अवलोकन》 शीर्षक से एक तकनीकी लेख प्रकाशित किया है, जिसमें पहली बार अपने मॉडल अनुमान प्रणाली के अनुकूलन विवरण और लागत लाभ मार्जिन की जानकारी का विस्तृत खुलासा किया गया है, जो बहुप्रतीक्षित DeepSeek ओपन सोर्स वीक के औपचारिक समापन का प्रतीक है। लेख में DeepSeek-V3/R1 अनुमान प्रणाली के दो प्रमुख अनुकूलन लक्ष्यों का वर्णन किया गया है: अधिक थ्रूपुट और कम विलंबता। इन लक्ष्यों को प्राप्त करने के लिए, DeepSeek ने बड़े पैमाने पर क्रॉस-नोड विशेषज्ञ समानांतर (EP) तकनीक का उपयोग किया है, हालाँकि

डीपसीक ओपन प्लेटफॉर्म ने ऑफ-पीक ऑफ़र लॉन्च किया, API कॉल की कीमत में 75% तक की कमी

डीपसीक के अनुसार, इस अवधि के दौरान, API कॉल की कीमत में भारी कमी आएगी। विशेष रूप से, डीपसीक-V3 की कीमत मूल कीमत के 50% तक कम हो जाएगी, जबकि डीपसीक-R1 की कीमत मूल कीमत के केवल 25% तक कम हो जाएगी। यह कदम उपयोगकर्ताओं को रात के खाली समय में प्लेटफ़ॉर्म संसाधनों का पूरा उपयोग करने और अधिक किफायती और सुचारू सेवा का आनंद लेने के लिए प्रोत्साहित करने के उद्देश्य से किया गया है।

AI समाचार

हुआनफांग क्वांटिफाइड ने DeepSeek-V3 का धूमधाम से अनावरण किया: प्रदर्शन GPT-4 के समकक्ष, प्रशिक्षण लागत नए निम्नतम स्तर पर

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

बड़े मॉडल की दक्षता में जबरदस्त बढ़ोतरी: बाइट्स COMET तकनीक ओपन सोर्स, 1.7 गुना तेज़

डीपसीक ओपन सोर्स वीक छठा दिन: अत्यधिक अनुमान अनुकूलन प्रणाली GPU गणना दक्षता में सुधार करती है

DeepSeek रहस्योद्घाटन: AI अनुमान प्रणाली के पीछे 545% का आश्चर्यजनक लाभ मार्जिन

डीपसीक ओपन प्लेटफॉर्म ने ऑफ-पीक ऑफ़र लॉन्च किया, API कॉल की कीमत में 75% तक की कमी