हालांकि Transformer मॉडल शक्तिशाली है, लेकिन इसके डिकोडिंग में दक्षता की समस्या हमेशा सिरदर्द रही है। लेकिन, कोरियाई विज्ञान और प्रौद्योगिकी अनुसंधान संस्थान, LG और DeepMind के शोधकर्ताओं ने हमें एक आश्चर्यजनक खबर दी है - उन्होंने एक नए Transformer आर्किटेक्चर का प्रस्ताव रखा है, जिसे Block Transformer कहा जाता है, जिसने डिकोडिंग गति को 10 से 20 गुना बढ़ा दिया है!
यह कैसे संभव हुआ? दरअसल, उन्होंने Transformer के ध्यान तंत्र को "ब्लॉक" में विभाजित कर दिया। इस तरह, मूल Transformer की वह कम प्रभावी विधि, जिसमें प्रत्येक टोकन उत्पन्न करने पर एक बार वैश्विक KV कैश तक पहुंचना पड़ता था, पूरी तरह से बदल गई है।
शोधकर्ताओं ने मूल Transformer की कमजोरियों का विश्लेषण किया: GPU की प्रभावी उपयोगिता 1% से भी कम थी, जबकि शेष 99% मेमोरी पहुंच में लग रहा था। यह स्पष्ट रूप से असंगत था, इसलिए उन्होंने Block Transformer का प्रस्ताव रखा, जो नए आर्किटेक्चर के माध्यम से ब्लॉक-स्तरीय ध्यान और ब्लॉक के भीतर ध्यान को विभाजित करके मॉडल की निष्पादन थ्रूपुट को सीधे बढ़ा देता है।
विशिष्ट रूप से, Block Transformer का कार्यप्रवाह इस प्रकार है: पहले अनुक्रम को ब्लॉक में विभाजित किया जाता है, फिर प्रत्येक ब्लॉक को Embedder का उपयोग करके एम्बेडिंग वेक्टर में परिवर्तित किया जाता है। Block Decoder ब्लॉक एम्बेडिंग वेक्टर को संभालता है, ब्लॉक के बीच वैश्विक निर्भरता को पकड़ता है; Token Decoder टोकन के बीच स्थानीय निर्भरता को संभालता है, टोकन अनुक्रम उत्पन्न करता है।
यह विधि न केवल निष्पादन गति को बढ़ाती है, बल्कि मेमोरी खर्च को भी काफी कम करती है। कुछ उपयोगकर्ताओं ने कहा कि उन्होंने पहले भी इसी तरह के विचार किए थे, लेकिन परिणामस्वरूप मॉडल की प्रदर्शन कम थी, अब यह विधि वास्तव में KV कैश को कम करने में प्रभावी लगती है।
इसके अलावा, Block Transformer कई शून्य-नमूना कार्यों में समान आकार के मूल Transformer के साथ सटीकता में तुलनीय या थोड़ी अधिक है, जो साबित करता है कि इसने दक्षता बढ़ाते समय गुणवत्ता का बलिदान नहीं किया है।
इस अध्ययन का महत्व इससे भी अधिक है। इसने मॉडल के प्रशिक्षण लागत को भी कम किया है, वैश्विक ध्यान के द्वितीयक मेमोरी पहुंच का खर्च 16 गुना कम हो गया है, और GPU की उपयोगिता 1% से बढ़कर 44% हो गई है।
पेपर का पता: https://arxiv.org/abs/2406.02657