आर्टिफिशियल इंटेलिजेंस (AI) तकनीक के तेजी से विकास के दौर में, DeepSeek टीम ने अपना नया DeepSeek-V3/R1 इन्फ्रेंस सिस्टम लॉन्च किया है। यह सिस्टम उच्च थ्रूपुट और कम विलंबता के माध्यम से AGI (सामान्य कृत्रिम बुद्धिमत्ता) के कुशल विकास को बढ़ावा देने के लिए डिज़ाइन किया गया है। इस लक्ष्य को प्राप्त करने के लिए, DeepSeek ने क्रॉस-नोड विशेषज्ञ समानांतरता (Expert Parallelism, EP) तकनीक को अपनाया है, जिससे GPU की गणना दक्षता में उल्लेखनीय वृद्धि हुई है, और विलंबता को कम करते हुए बैच आकार का विस्तार किया गया है।
DeepSeek-V3/R1 का मूल इसकी अत्यधिक विरलता में निहित है, मॉडल की प्रत्येक परत में केवल 256 विशेषज्ञों में से 8 को सक्रिय किया जाता है, इसलिए प्रत्येक विशेषज्ञ के पास पर्याप्त प्रसंस्करण शक्ति सुनिश्चित करने के लिए बहुत बड़े बैच आकार की आवश्यकता होती है। इस सिस्टम के आर्किटेक्चर में प्रीफ़िल-डिकोड डिसेग्रेगेशन विधि का उपयोग किया गया है, जो प्रीफ़िल और डिकोडिंग चरणों में विभिन्न डिग्री के समानांतरकरण रणनीतियों का उपयोग करता है।
प्रीफ़िल चरण में, सिस्टम संचार लागत को छिपाने के लिए डबल-बैच ओवरलैपिंग रणनीति का उपयोग करता है, जिसका अर्थ है कि एक बैच के अनुरोधों को संसाधित करते समय, दूसरे बैच की संचार लागत की गणना प्रक्रिया द्वारा कवर की जा सकती है, जिससे समग्र थ्रूपुट में वृद्धि होती है। डिकोडिंग चरण में, विभिन्न निष्पादन चरणों के समय असंतुलन की समस्या को दूर करने के लिए, DeepSeek ने पांच-स्तरीय पाइपलाइन विधि को अपनाया है, जिससे संचार और गणना ओवरलैपिंग का निर्बाध रूप से एहसास होता है।
बड़े पैमाने पर समानांतरता के कारण होने वाले असमान भार की समस्या से निपटने के लिए, DeepSeek टीम ने कई लोड बैलेंसर स्थापित किए हैं। ये लोड बैलेंसर सभी GPU के बीच गणना और संचार भार को संतुलित करने पर केंद्रित हैं, किसी एक GPU को ओवरलोड होने और प्रदर्शन की बाधा बनने से रोकते हैं, और संसाधनों के कुशल उपयोग को सुनिश्चित करते हैं।
सेवा के प्रदर्शन के संदर्भ में, DeepSeek-V3/R1 इन्फ्रेंस सेवा H800GPU पर चलती है, और उपयोग किए जाने वाले मैट्रिक्स गुणन और ट्रांसफर प्रारूप प्रशिक्षण प्रक्रिया के अनुरूप हैं। नवीनतम आंकड़ों के अनुसार, सिस्टम ने पिछले 24 घंटों में 608 अरब इनपुट टोकन संसाधित किए हैं, जिसमें उच्चतम नोड उपयोग दर 278 तक पहुँच गई है, दैनिक औसत उपयोग दर 226.75 है, और समग्र सेवा प्रदर्शन अच्छा है।
DeepSeek-V3/R1 इन्फ्रेंस सिस्टम कुशल आर्किटेक्चर डिज़ाइन और बुद्धिमान लोड प्रबंधन के माध्यम से न केवल कृत्रिम बुद्धिमत्ता मॉडल के इन्फ्रेंस प्रदर्शन को बेहतर बनाता है, बल्कि भविष्य के AGI अनुसंधान और अनुप्रयोगों के लिए एक मजबूत बुनियादी ढाँचा समर्थन भी प्रदान करता है।
प्रोजेक्ट:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md
मुख्य बिंदु:
🌟 DeepSeek-V3/R1 इन्फ्रेंस सिस्टम क्रॉस-नोड विशेषज्ञ समानांतरता तकनीक के माध्यम से उच्च थ्रूपुट और कम विलंबता प्राप्त करता है।
📊 डबल-बैच ओवरलैपिंग रणनीति और पांच-स्तरीय पाइपलाइन का उपयोग करके, गणना दक्षता में सुधार और संचार प्रक्रिया का अनुकूलन किया जाता है।
🔄 कई लोड बैलेंसर स्थापित करके, GPU के बीच संसाधनों के कुशल उपयोग को सुनिश्चित किया जाता है, जिससे प्रदर्शन की बाधा से बचा जा सकता है।