कृत्रिम बुद्धिमत्ता चिप दिग्गज एनवीडिया के शोधकर्ताओं ने हाल ही में "FFN फ्यूजन" नामक एक अभिनव आर्किटेक्चर ऑप्टिमाइजेशन तकनीक जारी की है। यह तकनीक ट्रांसफॉर्मर आर्किटेक्चर में निहित सीरियल कंप्यूटिंग बॉटलनेक को हल करके, बड़े भाषा मॉडल (LLM) की अनुमान दक्षता में उल्लेखनीय रूप से वृद्धि करने के लिए डिज़ाइन की गई है, जिससे उच्च-प्रदर्शन AI अनुप्रयोगों की व्यापक तैनाती के लिए मार्ग प्रशस्त होता है।
हाल के वर्षों में, बड़े भाषा मॉडल ने प्राकृतिक भाषा प्रसंस्करण, वैज्ञानिक अनुसंधान और संवाद एजेंटों जैसे क्षेत्रों में शक्तिशाली क्षमताएँ प्रदर्शित की हैं। हालाँकि, मॉडल के आकार और जटिलता में निरंतर वृद्धि के साथ, इसके अनुमान प्रक्रिया के लिए आवश्यक कंप्यूटिंग संसाधन भी काफी बढ़ गए हैं, जिससे दक्षता में बाधा आ रही है। ट्रांसफॉर्मर आर्किटेक्चर LLM का आधार है, जिसके वैकल्पिक ध्यान तंत्र और फीडफॉरवर्ड नेटवर्क (FFN) परतों को क्रम में इनपुट को संसाधित करने की आवश्यकता होती है। मॉडल के आकार में वृद्धि होने पर यह अंतर्निहित सीरियल संरचना गणना और GPU के बीच संचार लागत में उल्लेखनीय रूप से वृद्धि करती है, जिससे दक्षता कम होती है और तैनाती लागत बढ़ जाती है। विशेष रूप से उन परिदृश्यों में जहाँ कई टोकन को तेज़ी से उत्पन्न करने की आवश्यकता होती है (जैसे रीयल-टाइम AI सहायक), यह समस्या और भी अधिक स्पष्ट हो जाती है।
इस चुनौती का समाधान करने के लिए, एनवीडिया के शोधकर्ताओं ने FFN फ्यूजन तकनीक का प्रस्ताव किया है। इस विधि का मूल विचार मॉडल में क्रमिक, कम पारस्परिक रूप से आश्रित FFN परतों को एक व्यापक FFN में मिलाना है। शोधकर्ताओं ने देखा कि ध्यान परतों को हटाने के बाद, LLM में आमतौर पर लंबे क्रमिक FFN अनुक्रम मौजूद होते हैं। इन अनुक्रमों का विश्लेषण करके, उन्होंने पाया कि इन FFN परतों के बीच निर्भरता बहुत कम है, इसलिए उन्हें समानांतर रूप से निष्पादित किया जा सकता है।
FFN फ्यूजन का गणितीय आधार कई श्रृंखलाबद्ध FFN के वज़न को जोड़ना है, जिससे एक समकक्ष, समानांतर रूप से गणना योग्य एकल मॉड्यूल बनता है। उदाहरण के लिए, यदि तीन FFN क्रमिक रूप से ढेर किए जाते हैं, तो प्रत्येक FFN का आउटपुट अगले के इनपुट के रूप में कार्य करता है, FFN फ्यूजन इस निर्भरता को समाप्त कर देता है, जिससे ये तीन FFN एक ही इनपुट को एक साथ संसाधित कर सकते हैं और उनके आउटपुट को एकत्रित कर सकते हैं। सैद्धांतिक विश्लेषण से पता चलता है कि फ़्यूज़्ड FFN मूल FFN के समान प्रतिनिधित्व क्षमता को बनाए रखता है।
Ultra-253B-Base: प्रदर्शन और दक्षता में दोहरी वृद्धि
एनवीडिया के शोधकर्ताओं ने Meta के Llama-3.1-405B-Instruct मॉडल पर FFN फ्यूजन तकनीक लागू की, प्रूनिंग और पुनर्गठन के माध्यम से Ultra-253B-Base नामक एक नया मॉडल बनाया। प्रायोगिक परिणामों से पता चलता है कि Ultra-253B-Base ने अनुमान गति और संसाधन दक्षता के मामले में उल्लेखनीय सुधार प्राप्त किया है। विशेष रूप से, यह मॉडल बैच आकार 32 पर, अनुमान विलंब को 1.71 गुना कम कर देता है, और प्रति टोकन गणना लागत को 35 गुना कम कर देता है।
और भी प्रभावशाली बात यह है कि दक्षता में वृद्धि मॉडल की क्षमता के त्याग पर नहीं आई है। Ultra-253B-Base ने कई आधिकारिक मूल्यांकन मानदंडों पर उत्कृष्ट परिणाम प्राप्त किए हैं, जैसे: MMLU 85.17%, MMLU-Pro 72.25%, HumanEval 86.58%, Arena Hard 84.92%, MT-Bench 9.19। ये परिणाम आमतौर पर मूल 405 बिलियन-पैरामीटर मॉडल के बराबर या उससे भी अधिक होते हैं, जबकि Ultra-253B-Base में केवल 253 बिलियन पैरामीटर हैं। इसके अलावा, इस मॉडल की मेमोरी खपत भी आधी हो गई है, जो kv-कैश के अनुकूलन के कारण है।
शोधकर्ताओं ने कम पारस्परिक निर्भरता वाले क्षेत्रों की पहचान करने के लिए FFN परतों के बीच आउटपुट की कोसाइन दूरी का विश्लेषण किया, ये क्षेत्र फ्यूजन के लिए सबसे अच्छे विकल्प हैं। FFN फ्यूजन तकनीक को विभिन्न आकार के मॉडल (49 बिलियन, 70 बिलियन और 253 बिलियन पैरामीटर सहित) पर सत्यापित किया गया है, जो इसकी अच्छी सामान्यता को दर्शाता है।
इस शोध से पता चलता है कि गहन विश्लेषण और चतुर आर्किटेक्चर डिज़ाइन के माध्यम से, LLM की दक्षता में उल्लेखनीय रूप से वृद्धि की जा सकती है। FFN फ्यूजन अधिक समानांतर और हार्डवेयर के अनुकूल LLM को डिज़ाइन करने के लिए आधार तैयार करता है। हालाँकि पूर्ण ट्रांसफॉर्मर मॉड्यूल का समानांतरकरण अधिक मजबूत परत-से-परत निर्भरता के कारण अधिक चुनौतियों का सामना करता है, लेकिन FFN फ्यूजन की सफलता निस्संदेह भविष्य के LLM दक्षता अनुकूलन के लिए एक महत्वपूर्ण दिशा को इंगित करती है।
पेपर:https://arxiv.org/abs/2503.18908