2024年12月19日 के发布会上, Zhiyuan अनुसंधान संस्थान और Tencent ने LongBench v2 की घोषणा की, जो एक मानक परीक्षण है जिसे वास्तविक दुनिया के लंबे पाठ बहु-कार्य में बड़े भाषा मॉडल (LLMs) की गहरी समझ और तर्क क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह प्लेटफ़ॉर्म लंबे पाठ मॉडल के समझ और तर्क में प्रगति को बढ़ावा देने के लिए बनाया गया है, जो वर्तमान में लंबे पाठ बड़े भाषा मॉडल के अनुप्रयोगों में चुनौतियों का सामना करता है।

LongBench v2 की महत्वपूर्ण विशेषताओं में अधिक लंबी पाठ लंबाई का समर्थन करना शामिल है, जो 8k से 2M शब्दों तक है, और इसमें 503 चुनौतीपूर्ण चार विकल्प प्रश्न शामिल हैं, जिनकी कठिनाई बहुत अधिक है, यहां तक कि मानव विशेषज्ञों की 15 मिनट में औसत सटीकता केवल 53.7% है। इसके अलावा, यह मानक परीक्षण छह प्रमुख कार्य श्रेणियों को कवर करता है, जिसमें एकल दस्तावेज़ प्रश्नोत्तर, बहु-दस्तावेज़ प्रश्नोत्तर, लंबे पाठ संदर्भ अध्ययन आदि शामिल हैं, जो व्यापक अनुप्रयोग परिदृश्यों को सुनिश्चित करता है।

微信截图_20241220160723.png

मूल्यांकन की विश्वसनीयता सुनिश्चित करने के लिए, LongBench v2 के सभी प्रश्न बहुविकल्पीय प्रश्नों के रूप में हैं, और इन्हें सख्त मानव लेबलिंग और समीक्षा प्रक्रियाओं के माध्यम से अनुमोदित किया गया है। डेटा संग्रह प्रक्रिया में, शीर्ष विश्वविद्यालयों से लेबलिंग करने वालों की भर्ती की गई, ताकि प्रश्नों की गुणवत्ता और कठिनाई सुनिश्चित की जा सके। नियंत्रण चर को शामिल करके, LongBench v2 ने मूल Bradley-Terry सांख्यिकीय विधि में सुधार किया है, जिससे भ्रमित करने वाले कारकों के प्रभाव को कम किया गया है, जिससे मॉडल रैंकिंग अधिक वैज्ञानिक और सटीक हो गई है।

मूल्यांकन परिणामों के संदर्भ में, अनुसंधान टीम ने 10 ओपन-सोर्स LLMs और 6 क्लोज़-सोर्स LLMs का परीक्षण किया, और पाया कि नियंत्रण चर को शामिल करने के बाद, मॉडल के प्रदर्शन में महत्वपूर्ण सुधार हुआ है। विशेष रूप से, GPT-4o मॉडल ने अधिक तर्क कदमों को शामिल करने के बाद बहु-दस्तावेज़ प्रश्नोत्तर और लंबे पाठ संदर्भ अध्ययन जैसे कार्यों में उत्कृष्ट प्रदर्शन किया, जो तर्क क्षमता के महत्व को दर्शाता है।

LongBench v2 का शुभारंभ केवल बड़े भाषा मॉडल के मूल्यांकन के लिए नए उपकरण प्रदान नहीं करता, बल्कि भविष्य के अनुसंधान के लिए दिशा भी निर्धारित करता है, जो मॉडल की अपनी समझ और तर्क क्षमता को बढ़ाने के महत्व पर जोर देता है। Zhiyuan अनुसंधान संस्थान और Tencent का सहयोग, AI तकनीक के क्षेत्र में आगे के विकास का प्रतीक है, और हम आशा करते हैं कि यह मानक परीक्षण लंबे पाठ समझ और तर्क तकनीकों की प्रगति को बढ़ावा दे सके।

मुखपृष्ठ:https://longbench2.github.io

पत्र:https://arxiv.org/abs/2412.15204

डेटा और कोड:https://github.com/THUDM/LongBench