हाल ही में, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) की अनुसंधान टीम ने बड़े भाषा मॉडल (LLMs) पर गहन अध्ययन किया, ताकि विभिन्न कार्यों के तहत उनकी प्रदर्शन का पता लगाया जा सके। उन्होंने पाया कि, हालांकि ये मॉडल कुछ सामान्य कार्यों पर उत्कृष्ट प्रतीत होते हैं, लेकिन वास्तव में उनकी तर्क करने की क्षमता अक्सर अधिक आंकी जाती है, विशेष रूप से अपरिचित परिस्थितियों का सामना करते समय।
चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney
अनुसंधान टीम ने मुख्य रूप से "डिफ़ॉल्ट कार्यों" और "विपरीत परिदृश्यों" की तुलना की। डिफ़ॉल्ट कार्य वे कार्य हैं जो मॉडल के प्रशिक्षण और परीक्षण में सामान्यतः उपयोग किए जाते हैं, जबकि विपरीत परिदृश्य वे अनुमानित स्थितियाँ हैं जो इन डिफ़ॉल्ट शर्तों से भिन्न होती हैं। विभिन्न परिस्थितियों में मॉडल के प्रदर्शन का परीक्षण करने के लिए, शोधकर्ताओं ने मौजूदा कार्यों को समायोजित करके चुनौतियों की एक श्रृंखला तैयार की, ताकि उनकी वास्तविक क्षमताओं का अवलोकन किया जा सके।
शोध के परिणाम दर्शाते हैं कि LLMs परिचित वातावरण में उत्कृष्ट प्रदर्शन करते हैं, लेकिन जब कार्य में थोड़ी सी भी परिवर्तन होती है और वे अनजान क्षेत्र में जाते हैं, तो उनका प्रदर्शन काफी गिर जाता है। उदाहरण के लिए, गणितीय संचालन करते समय, मॉडल दशमलव में अच्छा प्रदर्शन करते हैं, लेकिन जब वे अन्य संख्या प्रणाली में जाते हैं, तो उनका प्रदर्शन अस्थिर हो जाता है, और कभी-कभी तो वे यादृच्छिक अनुमान से भी आगे नहीं बढ़ पाते।
केवल गणित ही नहीं, अनुसंधान ने संगीत और तारों की अंगुली, स्थानिक तर्क, और शतरंज जैसे कई क्षेत्रों का भी अध्ययन किया। मानव खिलाड़ी थोड़े से बोर्ड की स्थिति में बदलाव के बावजूद टुकड़ों की वैधता का मूल्यांकन करने में सक्षम होते हैं, जबकि मॉडल को गंभीर चुनौतियों का सामना करना पड़ता है। यह दर्शाता है कि LLMs इन कार्यों में न केवल अपनी अंतर्निहित तर्क क्षमता पर निर्भर करते हैं, बल्कि अक्सर प्रशिक्षण डेटा में सामग्री को सीधे याद करते हैं।
MIT अनुसंधान टीम के मुख्य लेखक ने कहा: "हमने पाया कि बड़े भाषा मॉडल परिचित परिदृश्यों में अच्छा प्रदर्शन करते हैं, जैसे एक पुरानी सड़क पर चलना, लेकिन जब वातावरण अपरिचित हो जाता है, तो वे असहाय हो जाते हैं।" इस अध्ययन के निष्कर्ष भविष्य के मॉडल के डिज़ाइन के लिए महत्वपूर्ण अंतर्दृष्टि प्रदान करते हैं, विशेष रूप से मॉडल की अनुकूलता और विविध परिदृश्यों का सामना करने की क्षमता को बढ़ाने के संदर्भ में।
हालांकि इस अध्ययन ने महत्वपूर्ण अंतर्दृष्टि प्रदान की है, फिर भी कुछ सीमाएँ हैं। शोध मुख्य रूप से विशिष्ट कार्यों और वातावरण पर केंद्रित है, और मॉडल के वास्तविक दुनिया के अनुप्रयोगों में संभावित सभी चुनौतियों को कवर नहीं कर सका। इसलिए, भविष्य के कार्यों को कार्यों की सीमा और परीक्षण वातावरण को विस्तारित करने की आवश्यकता हो सकती है, ताकि अधिक संभावित कमजोरियों का पता लगाया जा सके।
कुल मिलाकर, यह अध्ययन हमें बड़े भाषा मॉडल की क्षमताओं को समझने के लिए एक नया दृष्टिकोण प्रदान करता है, और भविष्य के अनुसंधान के लिए दिशा निर्देशित करता है, विशेष रूप से मॉडल की मजबूती और सामान्यीकरण क्षमताओं को बढ़ाने के संदर्भ में। जैसे-जैसे कृत्रिम बुद्धिमत्ता हमारे जीवन में अधिक व्यापक रूप से उपयोग होती जा रही है, इन मॉडलों की अनुकूलता को समझना और बढ़ाना अत्यंत महत्वपूर्ण होता जा रहा है।