बड़े मॉडल लंबे टेक्स्ट को प्रोसेस करने में धीमे हैं, इससे परेशान हैं? चिंता मत करो! त्सिंगुआ विश्वविद्यालय ने एक क्रांतिकारी तकनीक का अनावरण किया है: एपीबी सीक्वेंस पैरेलल इन्फेरेंस फ्रेमवर्क, जो बड़े मॉडल में टर्बोचार्जर इंजन लगाने जैसा है! टेस्ट से पता चला है कि यह अत्याधुनिक तकनीक बेहद लंबे टेक्स्ट को फ्लैश अटेंशन से 10 गुना ज़्यादा तेज़ी से प्रोसेस करती है! हाँ, आपने सही सुना, 10 गुना ज़्यादा तेज़!

image.png

ChatGPT और अन्य बड़े मॉडल की जबरदस्त सफलता के साथ, AI की "पठन" क्षमता में काफी सुधार हुआ है, जो आसानी से कई हज़ार शब्दों के टेक्स्ट को प्रोसेस कर सकती है। हालाँकि, भारी मात्रा में जानकारी के सामने, पारंपरिक बड़े मॉडल का "दिमाग" अटक सकता है: ट्रांसफॉर्मर आर्किटेक्चर, जितना शक्तिशाली है, उतना ही एक अटेंशन मैकेनिज़्म पर निर्भर करता है जो एक "सुपर स्कैनर" की तरह काम करता है। टेक्स्ट जितना लंबा होगा, स्कैनिंग की रेंज उतनी ही तेज़ी से बढ़ेगी, जिससे प्रोसेसिंग की गति धीमी हो जाएगी।

इस महत्वपूर्ण समस्या को हल करने के लिए, कई शोध संस्थानों और तकनीकी दिग्गजों के सहयोग से, त्सिंगुआ विश्वविद्यालय के वैज्ञानिकों ने एक अलग तरीका अपनाया और एपीबी फ्रेमवर्क लॉन्च किया। इस फ्रेमवर्क का राज "सीक्वेंस पैरेललाइज़ेशन" और "स्पार्स अटेंशन" के चतुर संयोजन में है।

image.png

सरल शब्दों में कहें तो, एपीबी फ्रेमवर्क एक कुशल "सहयोगी कार्य" टीम की तरह काम करता है। यह लंबे टेक्स्ट को छोटे ब्लॉक में विभाजित करता है, और उन्हें कई GPU में समानांतर रूप से वितरित करता है। इसके अलावा, एपीबी प्रत्येक GPU को "स्थानीय KV कैश संपीड़न" और "सरलीकृत संचार" कौशल प्रदान करता है, जिससे वे अपने-अपने कार्यों को संसाधित कर सकते हैं और साथ ही महत्वपूर्ण जानकारी को प्रभावी ढंग से साझा कर सकते हैं और लंबे टेक्स्ट में जटिल सिमेंटिक निर्भरता समस्याओं को एक साथ हल कर सकते हैं।

इससे भी आश्चर्यजनक बात यह है कि एपीबी फ्रेमवर्क गति के लिए प्रदर्शन का आदान-प्रदान नहीं करता है। इसके विपरीत, 128k के बेहद लंबे टेक्स्ट पर परीक्षणों में, एपीबी ने न केवल गति में काफी वृद्धि की है, बल्कि फ्लैश अटेंशन को भी पीछे छोड़ दिया है! यहां तक कि Nvidia द्वारा अत्यधिक प्रचारित स्टार अटेंशन को भी एपीबी ने पीछे छोड़ दिया है, जिसमें 1.6 गुना गति में सुधार हुआ है, जो इसे एक वास्तविक बहुमुखी "ऐस" बनाता है।

इस क्रांतिकारी तकनीक का सबसे सीधा अनुप्रयोग बड़े मॉडल द्वारा लंबे टेक्स्ट को संसाधित करते समय पहले टोकन के प्रतिक्रिया समय को कम करना है। इसका मतलब है कि भविष्य में, एपीबी फ्रेमवर्क से लैस बड़े मॉडल उपयोगकर्ताओं के लंबे निर्देशों को तुरंत समझ सकेंगे और तेज़ी से प्रतिक्रिया दे सकेंगे, जिससे "लोड हो रहा है..." का अंतहीन इंतज़ार खत्म हो जाएगा।

image.png

तो, एपीबी फ्रेमवर्क इतने शानदार तरीके से प्रोसेसिंग को कैसे तेज करता है?

एपीबी फ्रेमवर्क लंबे टेक्स्ट के प्रोसेसिंग के "कमज़ोर बिंदु" को अच्छी तरह से समझता है: गणना भार। पारंपरिक अटेंशन मैकेनिज़्म का गणना भार टेक्स्ट की लंबाई के वर्ग के समानुपाती होता है, लंबे टेक्स्ट गणना के "ब्लैक होल" होते हैं। इस बाधा को दूर करने के लिए, एपीबी फ्रेमवर्क दो "जादुई तकनीकों" का उपयोग करता है:

पहली तकनीक: समानांतरता बढ़ाना, ताकि "एकता से शक्ति मिले"

एपीबी फ्रेमवर्क वितरित गणना के लाभों का पूरी तरह से उपयोग करता है, गणना कार्यों को कई GPU में वितरित करता है, जैसे कि एक "सहयोग", जो स्वाभाविक रूप से दक्षता को बढ़ाता है। विशेष रूप से सीक्वेंस पैरेललाइज़ेशन के संबंध में, एपीबी फ्रेमवर्क में अत्यधिक उच्च स्केलेबिलिटी है, जो मॉडल की संरचना से सीमित नहीं है, यहां तक कि सबसे लंबे टेक्स्ट को भी आसानी से संसाधित किया जा सकता है।

दूसरी तकनीक: अनावश्यक गणनाओं को कम करना, ताकि "अच्छे स्टील का सही उपयोग किया जाए"

एपीबी फ्रेमवर्क एक स्पार्स अटेंशन मैकेनिज़्म पेश करता है, जो "एक साथ सब कुछ" प्रोसेस नहीं करता है, बल्कि "चुनिंदा" गणना करता है। यह एक "तीक्ष्ण नज़र वाले" विशेषज्ञ की तरह काम करता है, केवल टेक्स्ट की महत्वपूर्ण जानकारी पर ध्यान केंद्रित करता है और अप्रासंगिक भागों को अनदेखा करता है, जिससे गणना भार काफी कम हो जाता है।

हालांकि, ये दो तकनीकें, "समानांतरता" और "विरलता", सरल लगती हैं, लेकिन वास्तव में "रहस्य" छिपाती हैं। सीक्वेंस पैरेललाइज़ेशन के फ्रेमवर्क में कुशल स्पार्स अटेंशन गणना कैसे करें? यहीं पर एपीबी फ्रेमवर्क का वास्तविक "हृदय" निवास करता है।

सीक्वेंस पैरेललाइज़ेशन के माहौल में, प्रत्येक GPU के पास केवल टेक्स्ट जानकारी का एक हिस्सा होता है। "व्यापक धारणा" के साथ स्पार्स अटेंशन को प्राप्त करना "अंधे हाथी को छूने" जैसा है, इसलिए कठिनाई की कल्पना की जा सकती है। स्टार अटेंशन और APE जैसी पिछली विधियों ने या तो प्रदर्शन का त्याग किया है या सीमित अनुप्रयोग हैं, और इस समस्या को पूरी तरह से हल करने में सफल नहीं हुए हैं।

एपीबी फ्रेमवर्क चतुराई से "बड़े पैमाने पर संचार" के "जाल" को दरकिनार करता है, एक अलग दृष्टिकोण अपनाता है और सीक्वेंस पैरेललाइज़ेशन परिदृश्यों के लिए कम संचार स्पार्स अटेंशन मैकेनिज़्म का निर्माण करता है। इस मैकेनिज़्म के मुख्य घटकों में शामिल हैं:

एक अधिक कॉम्पैक्ट एंकर ब्लॉक: एंकर ब्लॉक एक "नेविगेशन सिस्टम" की तरह काम करता है, जो अटेंशन मैकेनिज़्म को महत्वपूर्ण जानकारी की ओर निर्देशित करता है। एपीबी फ्रेमवर्क नवीन रूप से एंकर ब्लॉक के आकार को कम करता है, जिससे यह हल्का और अधिक लचीला बन जाता है, जिससे गणना लागत कम हो जाती है।

एक मूल पासिंग ब्लॉक: पासिंग ब्लॉक एपीबी फ्रेमवर्क का "आत्मा" घटक है। यह चतुराई से लंबी दूरी की सिमेंटिक निर्भरता समस्याओं को हल करता है। पिछले GPU द्वारा संसाधित महत्वपूर्ण जानकारी को "संकुचित और पैक" करके और अगले GPU में प्रसारित करके, प्रत्येक "टीम के सदस्य" को "व्यापक दृष्टिकोण" मिल सकता है और लंबे टेक्स्ट के संदर्भ को समझ सकता है।

एक क्वेरी-संवेदनशील संदर्भ संपीड़न: एपीबी फ्रेमवर्क एक "क्वेरी-संवेदनशील" मैकेनिज़्म भी पेश करता है, जिससे संदर्भ कंप्रेसर "प्रश्न को समझ" सकता है और क्वेरी से संबंधित महत्वपूर्ण जानकारी को अधिक सटीक रूप से फ़िल्टर और बनाए रख सकता है, जिससे दक्षता और सटीकता में सुधार होता है।

इन "अनन्य तकनीकों" के आधार पर, एपीबी फ्रेमवर्क एक सहज अनुमान प्रक्रिया का निर्माण करता है:

संदर्भ विभाजन: लंबे टेक्स्ट को विभिन्न GPU के बीच समान रूप से वितरित किया जाता है, और शुरुआत में एक एंकर ब्लॉक जोड़ा जाता है, जो क्वेरी के प्रश्न को "एकीकृत" करता है।

संदर्भ संपीड़न: Locret का उपयोग करके, संरक्षित हेड का उपयोग KV कैश को "बुद्धिमानी से संपीड़ित" करने के लिए किया जाता है।

प्रभावी संचार: संपीड़ित KV कैश को अगले GPU में "प्रसारित" करने के लिए AllGather ऑपरेटर का उपयोग किया जाता है, जिससे पासिंग ब्लॉक बनता है।

तेज़ गणना: एक विशेष फ्लैश अटेंशन कर्नेल, साथ ही एक अनुकूलित अटेंशन मास्क का उपयोग करके, कुशल गणना की जाती है। पासिंग ब्लॉक गणना के बाद "हट" जाता है और बाद की गणनाओं में भाग नहीं लेता है।

प्रायोगिक परिणाम एपीबी फ्रेमवर्क के असाधारण प्रदर्शन को स्पष्ट रूप से प्रदर्शित करते हैं। Llama-3.1-8B-instruct, Qwen-2.5-14B-instruct और Yi-34B-200K जैसे कई मॉडल पर, साथ ही InfiniteBench और RULER जैसे कई बेंचमार्क पर परीक्षणों में, एपीबी फ्रेमवर्क ने अन्य सभी को पीछे छोड़ दिया है, प्रदर्शन और गति के बीच सबसे अच्छा संतुलन प्राप्त किया है।

यह ध्यान रखना विशेष रूप से महत्वपूर्ण है कि एपीबी फ्रेमवर्क का गति लाभ टेक्स्ट की लंबाई के बढ़ने के साथ-साथ अधिक स्पष्ट होता जाता है, जिससे "जितना लंबा, उतना तेज़" प्रभाव प्राप्त होता है। रहस्य यह है कि एपीबी फ्रेमवर्क का गणना भार अन्य विधियों की तुलना में बहुत कम है, और टेक्स्ट की लंबाई बढ़ने के साथ अंतर बढ़ता जाता है।

पूर्व-भरण समय के एक गहन विश्लेषण से पता चलता है कि सीक्वेंस पैरेललाइज़ेशन तकनीक अकेले अटेंशन और FFN (फीड-फॉरवर्ड न्यूरल नेटवर्क) की गणना के समय को काफी कम कर सकती है। एपीबी फ्रेमवर्क का स्पार्स अटेंशन मैकेनिज़्म अटेंशन की गणना के समय को और भी अधिक संपीड़ित करता है। स्टार अटेंशन की तुलना में, एपीबी फ्रेमवर्क चतुराई से लंबी दूरी की सिमेंटिक निर्भरताओं को प्रसारित करने के लिए पासिंग ब्लॉक का उपयोग करता है, जिससे एंकर ब्लॉक का आकार काफी कम हो जाता है और FFN की अतिरिक्त लागत को प्रभावी ढंग से कम किया जाता है, जिससे "दोनों तरफ का फायदा" मिलता है।

इससे भी उत्साहजनक बात यह है कि एपीबी फ्रेमवर्क में असाधारण संगतता है, जो विभिन्न वितरित वातावरणों और मॉडल के विभिन्न पैमानों के लिए लचीले ढंग से अनुकूल हो सकता है, विभिन्न "कठोर" परिस्थितियों में उच्च और स्थिर प्रदर्शन और दक्षता बनाए रखता है।

यह अनुमान लगाया जा सकता है कि एपीबी फ्रेमवर्क के आगमन के साथ, बड़े मॉडल द्वारा लंबे टेक्स्ट के अनुमान की "अड़चन" पूरी तरह से समाप्त हो जाएगी, और AI अनुप्रयोगों की कल्पना की गुंजाइश काफी बढ़ जाएगी। भविष्य में, चाहे वह बुद्धिमान ग्राहक सेवा हो, वित्तीय विश्लेषण हो, वैज्ञानिक अनुसंधान हो या सामग्री निर्माण हो, हम "तेज़, अधिक शक्तिशाली और अधिक बुद्धिमान" AI के एक नए युग में प्रवेश करेंगे!

प्रोजेक्ट का पता: https://github.com/thunlp/APB

लेख का पता: https://arxiv.org/pdf/2502.12085