हाल ही में बड़े भाषा मॉडल (LLM) का विकास तेजी से हुआ है, जिसमें ट्रांसफार्मर मॉडल का बड़ा योगदान है। ट्रांसफार्मर का मुख्य हिस्सा ध्यान तंत्र है, जो एक सूचना फ़िल्टर की तरह काम करता है, जिससे मॉडल वाक्य के सबसे महत्वपूर्ण हिस्सों पर ध्यान केंद्रित कर सके। लेकिन शक्तिशाली ट्रांसफार्मर भी अप्रासंगिक जानकारी से प्रभावित हो सकते हैं, जैसे कि आप पुस्तकालय में एक किताब खोजने की कोशिश कर रहे हैं, लेकिन एक ढेर सारी अप्रासंगिक किताबों में खो जाते हैं, जिससे आपकी दक्षता स्वाभाविक रूप से कम हो जाती है।

इस ध्यान तंत्र से उत्पन्न अप्रासंगिक जानकारी को शोध पत्र में ध्यान शोर कहा गया है। कल्पना कीजिए, आप एक फ़ाइल में एक महत्वपूर्ण जानकारी खोजने की कोशिश कर रहे हैं, लेकिन ट्रांसफार्मर मॉडल का ध्यान विभिन्न अप्रासंगिक स्थानों पर बंट गया है, जैसे एक近视眼, जो महत्वपूर्ण बिंदुओं को स्पष्ट रूप से नहीं देख सकता।

image.png

इस समस्या को हल करने के लिए, इस शोध पत्र में डिफरेंशियल ट्रांसफार्मर (DIFF ट्रांसफार्मर) का प्रस्ताव रखा गया है। यह नाम बहुत उन्नत लग सकता है, लेकिन इसका सिद्धांत वास्तव में बहुत सरल है, जैसे शोर-निष्कासन हेडफ़ोन, जो दो संकेतों के अंतर के माध्यम से शोर को खत्म करता है।

डिफरेंशियल ट्रांसफार्मर का मुख्य हिस्सा अंतर ध्यान तंत्र है। यह क्वेरी और की वेक्टर को दो समूहों में विभाजित करता है, प्रत्येक के लिए दो ध्यान मैप की गणना करता है, और फिर इन दोनों मैप्स को घटाकर अंतिम ध्यान स्कोर प्राप्त करता है। यह प्रक्रिया जैसे दो कैमरों से एक ही वस्तु की तस्वीरें खींचना है, और फिर दोनों तस्वीरों को ओवरलैप करना है, जिसमें भिन्नता वाले स्थान उजागर हो जाते हैं।

image.png

इस तरीके से, डिफरेंशियल ट्रांसफार्मर प्रभावी ढंग से ध्यान शोर को समाप्त कर सकता है, जिससे मॉडल महत्वपूर्ण जानकारी पर अधिक ध्यान केंद्रित कर सके। जैसे आप शोर-निष्कासन हेडफ़ोन पहनते हैं, चारों ओर का शोर गायब हो जाता है, और आप उस ध्वनि को अधिक स्पष्टता से सुन सकते हैं जो आप चाहते हैं।

शोध पत्र में कई प्रयोग किए गए हैं, जो डिफरेंशियल ट्रांसफार्मर की श्रेष्ठता को साबित करते हैं। सबसे पहले, यह भाषा मॉडलिंग में उत्कृष्टता दिखाता है, केवल ट्रांसफार्मर के 65% मॉडल आकार या प्रशिक्षण डेटा की आवश्यकता होती है, ताकि समान परिणाम प्राप्त किया जा सके।

image.png

दूसरे, डिफरेंशियल ट्रांसफार्मर लंबे पाठ मॉडलिंग में भी बेहतर है, जो लंबे संदर्भ जानकारी का प्रभावी ढंग से उपयोग कर सकता है।

सबसे महत्वपूर्ण बात यह है कि डिफरेंशियल ट्रांसफार्मर महत्वपूर्ण जानकारी पुनर्प्राप्ति, मॉडल भ्रांतियों को कम करने और संदर्भ अध्ययन में महत्वपूर्ण लाभ दिखाता है।

image.png

महत्वपूर्ण जानकारी पुनर्प्राप्ति में, डिफरेंशियल ट्रांसफार्मर एक सटीक सर्च इंजन की तरह है, जो विशाल जानकारी में सटीकता से वह सामग्री ढूंढ सकता है जो आप चाहते हैं, भले ही जानकारी बेहद जटिल हो, फिर भी उच्च सटीकता बनाए रख सकता है।

मॉडल भ्रांतियों को कम करने में, डिफरेंशियल ट्रांसफार्मर प्रभावी रूप से "बकवास" से बच सकता है, और अधिक सटीक और विश्वसनीय पाठ सारांश और प्रश्न-उत्तर परिणाम उत्पन्न कर सकता है।

संदर्भ अध्ययन में, डिफरेंशियल ट्रांसफार्मर एक मेधावी छात्र की तरह है, जो कम संख्या में नमूनों से तेजी से नई जानकारी सीख सकता है, और सीखने का परिणाम भी अधिक स्थिर होता है, जबकि ट्रांसफार्मर नमूनों की क्रमबद्धता से अधिक प्रभावित होता है।

इसके अलावा, डिफरेंशियल ट्रांसफार्मर मॉडल सक्रियण मानों में असामान्यताओं को प्रभावी ढंग से कम कर सकता है, जिसका मतलब है कि यह मॉडल मात्रात्मकता के लिए अधिक अनुकूल है, जिससे अधिक कम बिट्स की मात्रात्मकता संभव हो जाती है, और इस प्रकार मॉडल की दक्षता बढ़ जाती है।

कुल मिलाकर, डिफरेंशियल ट्रांसफार्मर ने अंतर ध्यान तंत्र के माध्यम से ट्रांसफार्मर मॉडल के ध्यान शोर समस्या को प्रभावी ढंग से हल किया है, और कई क्षेत्रों में महत्वपूर्ण सुधार हासिल किया है। यह बड़े भाषा मॉडल के विकास के लिए एक नई सोच प्रदान करता है, और भविष्य में अधिक क्षेत्रों में महत्वपूर्ण भूमिका निभाएगा। 

शोध पत्र का पता: https://arxiv.org/pdf/2410.05258