कृत्रिम बुद्धिमत्ता की दुनिया में, भाषा मॉडल एक गहरे अज्ञात काले बॉक्स की तरह होते हैं, हम इसमें文字 डालते हैं, यह अर्थ निकालता है। लेकिन इस प्रक्रिया में, वास्तव में क्या हो रहा है? Google DeepMind का नवीनतम शोध——Gemma Scope, हमें इस काले बॉक्स का एक कोना दिखाता है।

image.png

भाषा मॉडल का सक्रियण आमतौर पर वेक्टर के विरल, रैखिक संयोजन के रूप में देखा जाता है, लेकिन इन संयोजनों के पीछे का वास्तविक अर्थ पकड़ना कठिन है। इस समस्या को हल करने के लिए, विरल स्व-कोडित करने वाले (SAEs) एक बिना पर्यवेक्षण वाली सीखने की विधि के रूप में बड़ी उम्मीदें जगाते हैं। हालाँकि, यह तकनीक अभी भी अपने शुरुआती चरण में है, प्रशिक्षण की लागत बहुत अधिक है, और शोध की प्रगति धीमी है।

Google DeepMind टीम ने Gemma Scope को प्रशिक्षित और जारी किया है, जो Gemma2 मॉडल पर प्रशिक्षित एक विरल स्व-कोडित करने वाला है। यह भाषा मॉडल के सक्रियण को डिकोडर और एनकोडर के माध्यम से विभाजित और पुनर्निर्माण करता है, ताकि उन अर्थपूर्ण विशेषताओं को उजागर किया जा सके।

Gemma Scope ने एक अभिनव JumpReLU SAEs को अपनाया है, जो एक स्थानांतरित Heaviside सीढ़ी फ़ंक्शन को गेटिंग तंत्र के रूप में उपयोग करता है, सक्रियण को नियंत्रित करता है, जिससे मॉडल की संभावित विशेषताओं की संख्या को प्रभावी रूप से नियंत्रित किया जा सके। यह डिज़ाइन न केवल पुनर्निर्माण हानि को अनुकूलित करता है, बल्कि सक्रिय संभावित विशेषताओं की संख्या को सीधे नियमित करता है।

image.png

Gemma2 मॉडल के सक्रियण पर, Gemma Scope को ध्यानपूर्वक प्रशिक्षित किया गया है। प्रशिक्षण के दौरान, मॉडल के सक्रियण वेक्टर को सामान्यीकृत किया गया, SAEs को विभिन्न स्तरों और स्थानों पर प्रशिक्षित किया गया, जिसमें ध्यान सिर का आउटपुट, MLP आउटपुट और बाद के MLP अवशिष्ट प्रवाह शामिल हैं।

Gemma Scope के प्रदर्शन का मूल्यांकन कई दृष्टिकोणों से किया गया। प्रयोगात्मक परिणाम दिखाते हैं कि अवशिष्ट प्रवाह SAEs का डेल्टा हानि आमतौर पर अधिक होती है, जबकि अनुक्रम की लंबाई SAE प्रदर्शन पर महत्वपूर्ण प्रभाव डालती है। इसके अलावा, विभिन्न डेटा सेट उपसमुच्चयों का प्रदर्शन भी भिन्न होता है, Gemma Scope DeepMind गणित में सबसे अच्छा प्रदर्शन करता है।

Gemma Scope का प्रकाशन कई खुली समस्याओं के समाधान के लिए संभावनाएँ प्रदान करता है। यह न केवल हमें SAEs को और अधिक गहराई से समझने में मदद कर सकता है, बल्कि वास्तविक कार्यों के प्रदर्शन में सुधार भी कर सकता है, यहाँ तक कि SAEs के लिए रेड टीम परीक्षण कर सकता है, यह निर्धारित करने के लिए कि क्या वे वास्तव में मॉडल में "वास्तविक" अवधारणाएँ खोज रहे हैं।

Gemma Scope के अनुप्रयोग के साथ, हम AI की व्याख्या करने की क्षमता और सुरक्षा के मामले में महत्वपूर्ण कदम उठाने की उम्मीद कर सकते हैं। यह हमें भाषा मॉडल के आंतरिक कार्य तंत्र को बेहतर समझने में मदद करेगा, मॉडल की पारदर्शिता और विश्वसनीयता को बढ़ाएगा।

पत्र का पता: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

ऑनलाइन अनुभव: https://www.neuronpedia.org/gemma-scope#main