कृत्रिम बुद्धिमत्ता की दुनिया में, एक विशेष "चित्रकारों" का समूह है - ट्रांसफार्मर मॉडल की स्तर संरचना। वे एक जादुई ब्रश की तरह हैं, जो भाषा के कैनवास पर रंगीन दुनिया को चित्रित करते हैं। हाल ही में, "ट्रांसफार्मर स्तरों को चित्रकारों के रूप में" नामक एक शोध पत्र ने हमें ट्रांसफार्मर के मध्य स्तरों के कार्य तंत्र को समझने के लिए एक नया दृष्टिकोण प्रदान किया है।
ट्रांसफार्मर मॉडल, जो वर्तमान में सबसे लोकप्रिय बड़े भाषा मॉडल में से एक है, में अरबों की संख्या में पैरामीटर होते हैं। इसका प्रत्येक स्तर, जैसे एक चित्रकार, एक विशाल भाषा चित्र को पूरा करने के लिए मिलकर काम करता है। लेकिन ये "चित्रकार" एक साथ कैसे काम करते हैं? वे जो "ब्रश" और "रंग" का उपयोग करते हैं, वे किस प्रकार भिन्न हैं? यह शोध पत्र इन सवालों का उत्तर देने का प्रयास करता है।
ट्रांसफार्मर स्तरों के कार्य तंत्र की खोज करने के लिए, लेखकों ने एक श्रृंखला के प्रयोगों का आयोजन किया, जिसमें कुछ स्तरों को छोड़ना, स्तरों का क्रम बदलना या स्तरों को समानांतर चलाना शामिल है। ये प्रयोग "चित्रकारों" के लिए विभिन्न चित्रण नियम स्थापित करने के समान हैं, यह देखने के लिए कि क्या वे अनुकूलित कर सकते हैं।
“चित्रकारों की लाइन” के उपमा में, इनपुट को एक कैनवास के रूप में देखा जाता है, और मध्य स्तरों की प्रक्रिया कैनवास के उत्पादन लाइन पर स्थानांतरण के समान होती है। प्रत्येक "चित्रकार", अर्थात् ट्रांसफार्मर का प्रत्येक स्तर, अपनी विशेषज्ञता के अनुसार चित्र को संशोधित करता है। यह उपमा हमें ट्रांसफार्मर स्तरों की समानांतरता और समायोज्यता को समझने में मदद करती है।
इस प्रयोग में दो पूर्व-प्रशिक्षित बड़े भाषा मॉडल (LLM) का उपयोग किया गया: Llama2-7B और BERT। अध्ययन से पता चला है कि मध्य स्तरों के "चित्रकार" एक सामान्य "रंग पैलेट" को साझा करते हैं - जो कि अभिव्यक्ति स्थान को दर्शाता है, जबकि प्रारंभिक और अंतिम स्तरों से भिन्न होता है। कुछ मध्य स्तरों के "चित्रकारों" को छोड़ने का प्रभाव पूरे चित्र पर बड़ा नहीं होता है, यह दर्शाता है कि सभी "चित्रकार" आवश्यक नहीं हैं।
हालांकि मध्य स्तरों के "चित्रकार" समान "रंग पैलेट" का उपयोग करते हैं, लेकिन वे अपने कौशल के साथ कैनवास पर विभिन्न पैटर्न चित्रित करते हैं। यदि किसी एक "चित्रकार" के कौशल का सरलता से पुनरावृत्ति की जाए, तो चित्र की मौलिकता खो जाएगी।
गणित और तर्क कार्यों के लिए, "चित्रण" का क्रम विशेष रूप से महत्वपूर्ण है। जबकि अर्थ समझने वाले कार्यों के लिए, क्रम का प्रभाव अपेक्षाकृत छोटा होता है।
अध्ययन के परिणाम बताते हैं कि ट्रांसफार्मर के मध्य स्तरों में एक निश्चित स्तर की स्थिरता होती है, लेकिन वे अनावश्यक नहीं होते हैं। गणित और तर्क कार्यों के लिए, स्तरों का क्रम अर्थ कार्यों की तुलना में अधिक महत्वपूर्ण है।
शोध में यह भी पाया गया कि सभी स्तर आवश्यक नहीं हैं, मध्य स्तरों को छोड़ने से मॉडल के प्रदर्शन पर आपदा प्रभाव नहीं पड़ता। इसके अलावा, मध्य स्तर हालांकि समान अभिव्यक्ति स्थान साझा करते हैं, लेकिन वे विभिन्न कार्यों का निष्पादन करते हैं। स्तरों के निष्पादन क्रम को बदलने से प्रदर्शन में गिरावट आती है, यह दर्शाता है कि क्रम का मॉडल प्रदर्शन पर महत्वपूर्ण प्रभाव है।
ट्रांसफार्मर मॉडल के अन्वेषण में, कई शोधकर्ता इसे अनुकूलित करने का प्रयास कर रहे हैं, जिसमें प्रूनिंग, पैरामीटर को कम करना आदि शामिल हैं। ये कार्य ट्रांसफार्मर मॉडल को समझने के लिए मूल्यवान अनुभव और अंतर्दृष्टि प्रदान करते हैं।
शोध पत्र का पता: https://arxiv.org/pdf/2407.09298v1