कृत्रिम बुद्धिमत्ता के क्षेत्र में, DeepSeek टीम ने हाल ही में अपने नवीनतम शोध परिणामों की घोषणा की है, जिसमें NSA (Native Sparse Attention) नामक एक नवोन्मेषीSparse ध्यान तंत्र पेश किया गया है। इस तकनीक का मुख्य लक्ष्य लंबे संदर्भ प्रशिक्षण और तर्क की गति को बढ़ाना है, विशेष रूप से आधुनिक हार्डवेयर के लिए अनुकूलित किया गया है, जिससे प्रशिक्षण और तर्क की दक्षता में काफी वृद्धि हुई है।
NSA तकनीक के लॉन्च ने कृत्रिम बुद्धिमत्ता मॉडल के प्रशिक्षण में महत्वपूर्ण बदलाव लाए हैं। सबसे पहले, यह आधुनिक कंप्यूटिंग हार्डवेयर की विशेषताओं के लिए डिज़ाइन अनुकूलन की एक श्रृंखला के माध्यम से, तर्क की गति को महत्वपूर्ण रूप से बढ़ाता है और पूर्व-प्रशिक्षण की लागत को प्रभावी ढंग से कम करता है। और सबसे महत्वपूर्ण बात, गति बढ़ाने और लागत कम करने के साथ-साथ, NSA अभी भी उच्च स्तर के मॉडल प्रदर्शन को बनाए रखता है, यह सुनिश्चित करते हुए कि विभिन्न कार्यों में मॉडल का प्रदर्शन प्रभावित नहीं होता है।
DeepSeek टीम ने अपने शोध में एक स्तरित Sparse रणनीति अपनाई है, जिसने ध्यान तंत्र को तीन शाखाओं में विभाजित किया: संकुचन, चयन और स्लाइडिंग विंडो। इस डिज़ाइन ने मॉडल को वैश्विक संदर्भ और स्थानीय विवरण दोनों को पकड़ने की अनुमति दी, जिससे लंबे पाठ को संभालने की मॉडल की क्षमता में सुधार हुआ। इसके अतिरिक्त, NSA की मेमोरी एक्सेस और गणना शेड्यूलिंग में अनुकूलन ने लंबे संदर्भ प्रशिक्षण के लिए गणना विलंबता और संसाधन खपत को काफी कम कर दिया है।
कई सामान्य बेंचमार्क परीक्षणों में, NSA ने अपनी उत्कृष्ट प्रदर्शन प्रदर्शित की। विशेष रूप से लंबे संदर्भ कार्यों और निर्देश-आधारित तर्क में, NSA का प्रदर्शन पूर्ण ध्यान मॉडल के बराबर था, कुछ मामलों में यह बेहतर भी रहा। इस तकनीक का विमोचन, AI प्रशिक्षण और तर्क तकनीक में एक और छलांग का प्रतीक है, जो भविष्य के कृत्रिम बुद्धिमत्ता विकास को नई ऊर्जा प्रदान करेगा।
NSA पेपर (https://arxiv.org/pdf/2502.11089v1)।
मुख्य बिंदु:
🌟 NSA तकनीक के लॉन्च ने लंबे संदर्भ प्रशिक्षण और तर्क की गति को महत्वपूर्ण रूप से बढ़ाया है और पूर्व-प्रशिक्षण लागत को कम किया है।
🛠️ स्तरित Sparse रणनीति अपनाने से ध्यान तंत्र को संकुचन, चयन और स्लाइडिंग विंडो में विभाजित किया गया है, जिससे लंबे पाठ को संभालने की मॉडल की क्षमता में वृद्धि हुई है।
📈 कई बेंचमार्क परीक्षणों में, NSA ने उत्कृष्ट प्रदर्शन किया है, कुछ मामलों में पारंपरिक पूर्ण ध्यान मॉडल को पार किया है।