प्राकृतिक भाषा प्रसंस्करण के क्षेत्र में, लंबे संदर्भ की समझ हमेशा एक चुनौती रही है। हालाँकि बड़े भाषा मॉडल (LLMs) कई भाषाई कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन जब वे अपने संदर्भ विंडो के आकार से परे पाठ को संभालते हैं, तो अक्सर सीमित होते हैं। इस सीमा को पार करने के लिए, शोधकर्ता LLMs की लंबे पाठ की समझ की क्षमता को बढ़ाने के लिए प्रयासरत हैं, जो न केवल अकादमिक अनुसंधान के लिए महत्वपूर्ण है, बल्कि वास्तविक दुनिया के अनुप्रयोगों के लिए भी, जैसे कि विशेष क्षेत्र का ज्ञान समझना, लंबे संवाद उत्पन्न करना, लंबे कथाएँ या कोड उत्पन्न करना आदि, अत्यंत महत्वपूर्ण है।

इस अध्ययन में, लेखकों ने एक नया बेंचमार्क परीक्षण प्रस्तुत किया है - LooGLE (लॉन्ग कॉन्टेक्स्ट जनरिक लैंग्वेज एवल्यूएशन), जिसे LLMs की लंबे संदर्भ की समझ की क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। इस बेंचमार्क परीक्षण में 2022 के बाद के 776 अत्यधिक लंबे दस्तावेज़ शामिल हैं, प्रत्येक दस्तावेज़ में औसतन 19.3k शब्द होते हैं, और 6448 परीक्षण उदाहरण हैं, जो विभिन्न क्षेत्रों जैसे कि अकादमिक, इतिहास, खेल, राजनीति, कला, घटनाएँ और मनोरंजन आदि को कवर करते हैं।

image.png

LooGLE की विशेषताएँ

अत्यधिक लंबे वास्तविक दस्तावेज़: LooGLE में दस्तावेज़ों की लंबाई LLMs के संदर्भ विंडो के आकार से कहीं अधिक है, जिससे मॉडल को लंबे पाठ को याद करने और समझने की आवश्यकता होती है।

हाथ से डिज़ाइन किए गए लंबे और छोटे निर्भरता कार्य: बेंचमार्क परीक्षण में 7 प्रमुख कार्य शामिल हैं, जिनमें छोटे निर्भरता और लंबे निर्भरता कार्य शामिल हैं, ताकि LLMs की लंबे और छोटे निर्भरता सामग्री की समझ की क्षमता का मूल्यांकन किया जा सके।

सापेक्ष नवीन दस्तावेज़: सभी दस्तावेज़ 2022 के बाद प्रकाशित हुए हैं, यह सुनिश्चित करते हुए कि अधिकांश आधुनिक LLMs ने पूर्व-प्रशिक्षण के दौरान इन दस्तावेज़ों को नहीं देखा है, जिससे उनके संदर्भ सीखने की क्षमता का अधिक सटीक मूल्यांकन किया जा सके।

क्रॉस-डोमेन सामान्य डेटा: बेंचमार्क परीक्षण का डेटा लोकप्रिय ओपन-सोर्स दस्तावेज़ों से लिया गया है, जैसे कि arXiv पत्र, विकिपीडिया लेख, फिल्म और टीवी स्क्रिप्ट आदि।

शोधकर्ताओं ने 8 सबसे उन्नत LLMs का समग्र मूल्यांकन किया, जिसके परिणामस्वरूप निम्नलिखित प्रमुख निष्कर्ष सामने आए:

व्यावसायिक मॉडल प्रदर्शन में ओपन-सोर्स मॉडल से बेहतर हैं।

LLMs छोटे निर्भरता कार्यों में उत्कृष्ट प्रदर्शन करते हैं, लेकिन अधिक जटिल लंबे निर्भरता कार्यों में चुनौतियाँ होती हैं।

संदर्भ-आधारित सीखने और सोचने की श्रृंखला की विधियाँ लंबे संदर्भ की समझ में केवल सीमित सुधार प्रदान करती हैं।

खोज-आधारित तकनीकें छोटे प्रश्न उत्तरों में महत्वपूर्ण लाभ दिखाती हैं, जबकि संदर्भ विंडो की लंबाई बढ़ाने के लिए अनुकूलित ट्रांसफार्मर आर्किटेक्चर या स्थिति कोडिंग का उपयोग करने की रणनीतियाँ लंबे संदर्भ की समझ पर सीमित प्रभाव डालती हैं।

LooGLE बेंचमार्क परीक्षण न केवल लंबे संदर्भ वाले LLMs के मूल्यांकन के लिए एक प्रणालीगत और व्यापक मूल्यांकन योजना प्रदान करता है, बल्कि भविष्य में "वास्तविक लंबे संदर्भ की समझ" क्षमता वाले मॉडल के विकास के लिए मार्गदर्शन भी प्रदान करता है। सभी मूल्यांकन कोड GitHub पर प्रकाशित किया गया है, ताकि शोध समुदाय संदर्भ और उपयोग कर सके।

पेपर का पता: https://arxiv.org/pdf/2311.04939

कोड का पता: https://github.com/bigai-nlco/LooGLE