गहरे सीखने के क्षेत्र में, सामान्यीकरण परत को आधुनिक तंत्रिका नेटवर्क के अभिन्न घटकों में से एक माना जाता है। हाल ही में, मेटा FAIR के शोध वैज्ञानिक लियू झुआंग के नेतृत्व में एक शोध उपलब्धि - "सामान्यीकरण परत के बिना ट्रांसफॉर्मर" ने व्यापक ध्यान आकर्षित किया है। इस शोध ने न केवल डायनामिक टैन (डायनामिक टैन, DyT) नामक एक नई तकनीक प्रस्तुत की, बल्कि यह भी दिखाया कि पारंपरिक सामान्यीकरण परतों का उपयोग किए बिना, ट्रांसफॉर्मर आर्किटेक्चर अभी भी कुशल प्रशिक्षण और अनुमान प्राप्त कर सकता है।

सामान्यीकरण परतें, विशेष रूप से परत सामान्यीकरण (लेयर नॉर्मलाइजेशन, LN), पिछले दस वर्षों में गहरे सीखने के मॉडल को अनुकूलित करने में महत्वपूर्ण भूमिका निभाती हैं। LN परत इनपुट सक्रियण को स्केल और संपीड़ित करके मॉडल की अभिसरण गति को तेज करती है। हालांकि, शोधकर्ताओं ने पाया कि LN परतों का व्यापक उपयोग एकमात्र विकल्प नहीं है। उनका शोध LN परत के व्यवहार का अवलोकन करके शुरू हुआ, जिससे DyT नामक एक नया वैकल्पिक तरीका सामने आया। यह तत्व-स्तरीय ऑपरेशन न केवल LN परत के स्केलिंग और संपीड़न प्रभावों की नकल कर सकता है, बल्कि जटिल सक्रियण डेटा गणना को भी छोड़ देता है।

क्लाउड कंप्यूटिंग इंटरनेट मेटावर्स (3)

चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney

प्रयोग में, शोध दल ने कई ट्रांसफॉर्मर आर्किटेक्चर में पारंपरिक सामान्यीकरण परतों को DyT से बदल दिया, परिणामों से पता चला कि DyT का उपयोग करने वाले मॉडल स्थिर प्रशिक्षण प्राप्त कर सकते हैं और उच्च अंतिम प्रदर्शन प्राप्त कर सकते हैं। और भी उत्साहजनक बात यह है कि इस नए तरीके को आमतौर पर मूल आर्किटेक्चर में अति-पैरामीटर समायोजन की आवश्यकता नहीं होती है, जिससे मॉडल प्रशिक्षण की जटिलता कम हो जाती है।

तीन अलग-अलग ट्रांसफॉर्मर मॉडल के आगे प्रसारण प्रक्रिया का विश्लेषण करके, शोधकर्ताओं ने पाया कि प्रारंभिक LN परतें रैखिक संबंध प्रदर्शित करती हैं, लेकिन गहरी LN परतों में, इनपुट और आउटपुट के बीच का संबंध tanh फ़ंक्शन के समान S-आकार का वक्र दिखाता है। इस खोज ने शोध दल को आश्चर्यचकित कर दिया, और DyT की प्रभावशीलता के लिए एक मजबूत प्रमाणिक समर्थन प्रदान किया।

लियू झुआंग ने कहा कि इस काम ने उन्हें सामान्यीकरण परत की भूमिका को गहराई से समझने में मदद की, और उन्हें उम्मीद है कि DyT मॉडल प्रशिक्षण और अनुमान की लागत को कम करने के लिए नई संभावनाएं ला सकता है। भविष्य में, DyT दक्षता-उन्मुख नेटवर्क डिज़ाइन में एक महत्वपूर्ण संभावित विकल्प बन सकता है, जिससे गहरे सीखने के विकास को आगे बढ़ाया जा सकता है।