हाल ही में, अत्यधिक लंबे संदर्भ विंडो वाले बड़े भाषा मॉडल (LLMs) चर्चा का热点 बन गए हैं। ये मॉडल एक संकेत में लाखों या यहां तक कि लाखों टोकन को संसाधित करने में सक्षम हैं, जिससे डेवलपर्स के लिए कई नए संभावनाएं खुलती हैं। हालांकि, ये लंबे संदर्भ LLM वास्तव में प्राप्त की गई बड़ी जानकारी को कितनी अच्छी तरह समझ और उपयोग कर सकते हैं?

इस समस्या को हल करने के लिए, गूगल DeepMind के शोधकर्ताओं ने "Michelangelo" नामक एक नया मानक पेश किया है, जिसका उद्देश्य लंबे संदर्भ की推理 क्षमता का मूल्यांकन करना है।

शोध के परिणाम बताते हैं कि, हालांकि वर्तमान शीर्ष मॉडल ने बड़ी संदर्भ डेटा से जानकारी निकालने में कुछ प्रगति की है, लेकिन डेटा संरचना को समझने और तर्क करने वाले कार्यों में अभी भी कठिनाइयाँ हैं।

जैसे-जैसे लंबे संदर्भ विंडो वाले LLM उभरते जा रहे हैं, शोधकर्ताओं ने महसूस किया है कि इन मॉडलों की क्षमताओं का मूल्यांकन करने के लिए नए मानकों की आवश्यकता है। मौजूदा मूल्यांकन मुख्य रूप से सूचना पुनर्प्राप्ति कार्यों पर केंद्रित है, जैसे "काँटे में सुई खोजना", यानी बड़ी संदर्भ में विशिष्ट जानकारी खोजना। हालांकि, सरल पुनर्प्राप्ति मॉडल की समग्र संदर्भ की समझ के बराबर नहीं है।

इन समस्याओं को हल करने के लिए, Michelangelo ने एक पूरी तरह से नई मूल्यांकन विधि प्रस्तुत की है, जो जटिल कार्य सेट करके मॉडल को लंबे पाठ को संसाधित करते समय अधिक गहन तर्क और समेकन करने की मांग करती है। उदाहरण के लिए, इस मूल्यांकन ढांचे में कई प्रोग्रामिंग और प्राकृतिक भाषा से संबंधित कार्य शामिल हैं, जो न केवल मॉडल की स्मृति क्षमता का परीक्षण करते हैं, बल्कि इसकी जानकारी को समझने और संसाधित करने की गहराई पर भी ध्यान केंद्रित करते हैं।

Michelangelo के मूल्यांकन कार्यों में, मॉडल को तीन प्रकार के बुनियादी लंबे दस्तावेज़ समेकन कार्यों को हल करना होता है, जो हैं "लैटेंट लिस्ट", "मल्टी-टर्न कोरफरेंस रेजोल्यूशन" और अन्य कई एप्लिकेशन परिदृश्य। ये कार्य न केवल लंबे दस्तावेज़ में मॉडल के प्रदर्शन का मूल्यांकन करने में मदद करते हैं, बल्कि इसके तर्क और समेकन में कमियों को भी उजागर करते हैं।

पहला कार्य "लैटेंट लिस्ट" है, जिसमें मॉडल को Python सूची के संचालन की एक लंबी श्रृंखला को संसाधित करना होता है, अव्यवस्थित या अधिशेष बयानों को फ़िल्टर करना होता है, ताकि सूची की अंतिम स्थिति निर्धारित की जा सके।

दूसरा कार्य "मल्टी-टर्न कोरफरेंस रेजोल्यूशन" है, जिसमें मॉडल को लंबे संवाद में संवाद संरचना को समझना और संदर्भित समस्याओं को हल करना होता है।

तीसरा कार्य "मुझे नहीं पता" है, जिसमें मॉडल को कई विकल्प प्रश्नों का उत्तर देते समय यह तय करना होता है कि संदर्भ में उत्तर शामिल है या नहीं, और "मुझे नहीं पता" का सटीक उत्तर देने में सक्षम होना चाहिए।

शोधकर्ताओं ने Michelangelo पर दस शीर्ष LLM (जिसमें विभिन्न संस्करणों के Gemini, GPT-4 और Claude शामिल हैं) का मूल्यांकन किया, और उन्होंने मॉडल का परीक्षण 1000000 टोकन के संदर्भ में किया। Gemini मॉडल MRCR पर सबसे अच्छा प्रदर्शन करता है, GPT मॉडल लैटेंट लिस्ट पर उत्कृष्ट प्रदर्शन करता है, और Claude3.5Sonnet IDK पर सबसे उच्च स्कोर प्राप्त करता है।

image.png

शोधकर्ताओं ने पाया कि, हालाँकि ये मॉडल लंबे संदर्भ को संसाधित करने में भिन्न प्रदर्शन करते हैं, लेकिन जब वे अधिक जटिल तर्क कार्यों का सामना करते हैं, तो उनकी समग्र प्रदर्शन में महत्वपूर्ण गिरावट आती है।

इसका मतलब है कि भले ही अत्यधिक लंबे संदर्भ विंडो मौजूद हों, वर्तमान LLM की तर्क क्षमता में अभी भी सुधार की आवश्यकता है।

शोधकर्ता Michelangelo के मूल्यांकन परियोजना का विस्तार करने की योजना बना रहे हैं, और वे इसे सीधे अन्य शोधकर्ताओं को अपने मॉडल का परीक्षण करने के लिए खोलने की उम्मीद करते हैं।

पेपर लिंक: https://arxiv.org/abs/2409.12640

मुख्य बिंदु:   

🔍 लंबे संदर्भ LLM का नया मानक Michelangelo मॉडल की तर्क क्षमता का मूल्यांकन करने के लिए है।   

🧩 शोध से पता चलता है कि मौजूदा मॉडल जटिल तर्क कार्यों को संसाधित करते समय महत्वपूर्ण प्रदर्शन गिरावट का सामना करते हैं।   

📈 शोधकर्ता मूल्यांकन परियोजना का विस्तार करने की योजना बना रहे हैं, ताकि मॉडल की तर्क क्षमता के आगे के अध्ययन को बढ़ावा दिया जा सके।