मुनीख विश्वविद्यालय, मुनीख मशीन लर्निंग सेंटर और एडोब रिसर्च द्वारा हाल ही में जारी किए गए एक अध्ययन से पता चलता है कि 12 शीर्ष एआई भाषा मॉडल, जिसमें GPT-4o, Gemini1.5Pro और Llama-3.3-70B शामिल हैं, लंबे पाठ के अवधारणा तर्क कार्यों में महत्वपूर्ण प्रदर्शन में गिरावट का सामना कर रहे हैं। हालांकि ये मॉडल कम से कम 128,000 टोकन के संदर्भ प्रसंस्करण का समर्थन करते हैं, लेकिन उनकी गहरी तार्किक संबंध बनाने की क्षमता में अभी भी मौलिक सीमाएँ हैं।
शोध टीम द्वारा विकसित NOLIMA (शब्द मिलान न होना) मानक परीक्षण प्रणाली, जानबूझकर कीवर्ड पुनरावृत्ति से बचने के डिजाइन के माध्यम से, एआई मॉडल के अवधारणात्मक संबंधों में कमजोरियों को उजागर करती है। उदाहरण के लिए, जब पाठ वर्णन करता है “Yuki Semperoper के पास रहता है”, तो मॉडल को पहले यह समझना होगा कि “Semperoper ड्रेसडेन में है” की सामान्य ज्ञान को समझे, ताकि वह “किसने ड्रेसडेन का दौरा किया” का उत्तर दे सके।
चित्र स्रोत टिप्पणी: चित्र एआई द्वारा उत्पन्न, चित्र लाइसेंस सेवा प्रदाता Midjourney
परीक्षण परिणाम दर्शाते हैं:
1. **लंबे पाठ में प्रदर्शन में भारी गिरावट**: जब संदर्भ 2,000 से 8,000 टोकन में बढ़ता है, तो अधिकांश मॉडल का प्रदर्शन महत्वपूर्ण रूप से गिर जाता है; 32,000 टोकन के परिदृश्य में, 12 मॉडल में से 10 का प्रदर्शन केवल छोटे पाठ के समय का आधा होता है।
2. **ध्यान तंत्र की कमजोरियों का उजागर होना**: मॉडल लंबे पाठ में संबंधित जानकारी को सटीकता से स्थानांतरित करने में कठिनाई महसूस करता है, जब महत्वपूर्ण उत्तर पाठ के दूसरे भाग में होते हैं, तो सटीकता और भी गिर जाती है।
3. **विशेषीकृत तर्क मॉडल में अभी भी खामियाँ**: जटिल तर्क के लिए डिज़ाइन किए गए o1, o3-mini और DeepSeek-R1 सिस्टम, 32K टोकन के NOLIMA-Hard परीक्षण में 50% से कम स्कोर करते हैं, हालांकि छोटे पाठ में उनका प्रदर्शन लगभग उत्तम है।
शोध में बताया गया है कि मॉडल की “शब्द मिलान” की आदत पर अधिक निर्भरता मुख्य समस्या है। जब परीक्षण जानबूझकर समान शब्दावली को बाहर करता है, तब भी CoT संकेत तकनीक का उपयोग करने पर, Llama-3.3-70B की लंबे पाठ की प्रसंस्करण क्षमता में वृद्धि सीमित रहती है। और भी गंभीर बात यह है कि यदि अप्रासंगिक संदर्भ में शब्द मिलान का हस्तक्षेप होता है, तो यह मॉडल की गलत पहचान को बढ़ा सकता है।
“यह वर्तमान एआई के मौलिक विरोधाभास को उजागर करता है - संदर्भ विंडो को बढ़ाना आसान है, गहरी तर्क क्षमता को बढ़ाना कठिन है।” शोधकर्ताओं ने जोर दिया। GPT-4o के उदाहरण के रूप में, जबकि यह 8,000 टोकन के प्रभावी संदर्भ लंबाई तक पहुंचता है, लेकिन यह पाराग्राफों के बीच अवधारणात्मक एकीकरण में अभी भी कमजोर दिखता है। जैसे-जैसे पाठ लंबा होता है, मॉडल का ध्यान तंत्र धीरे-धीरे “धुंधला” होता है, जिससे निरंतर तार्किक श्रृंखला बनाए रखना कठिन हो जाता है।
यह अध्ययन एआई विकास के लिए चेतावनी की घंटी है: केवल प्रसंस्करण लंबाई बढ़ाने से तर्क की बाधाओं को पार नहीं किया जा सकता। उद्योग को मॉडल आर्किटेक्चर डिजाइन पर फिर से विचार करने की आवश्यकता है, और अधिक प्रभावी जानकारी निकासी और संबंध तंत्र विकसित करने की आवश्यकता है। भविष्य में, कैसे एआई को वास्तव में पाठ को समझने के लिए बनाया जाए न कि पैटर्न मिलान पर निर्भर रहने के लिए, लंबे पाठ की प्रसंस्करण सीमाओं को पार करने की कुंजी बन जाएगा।