झीyuan और Tencent ने लंबी पाठ समझ मानक परीक्षण मॉडल LongBench v2 लॉन्च किया

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Dec 20, 2024

179

2024年12月19日 के发布会上, Zhiyuan अनुसंधान संस्थान और Tencent ने LongBench v2 की घोषणा की, जो एक मानक परीक्षण है जिसे वास्तविक दुनिया के लंबे पाठ बहु-कार्य में बड़े भाषा मॉडल (LLMs) की गहरी समझ और तर्क क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह प्लेटफ़ॉर्म लंबे पाठ मॉडल के समझ और तर्क में प्रगति को बढ़ावा देने के लिए बनाया गया है, जो वर्तमान में लंबे पाठ बड़े भाषा मॉडल के अनुप्रयोगों में चुनौतियों का सामना करता है।

LongBench v2 की महत्वपूर्ण विशेषताओं में अधिक लंबी पाठ लंबाई का समर्थन करना शामिल है, जो 8k से 2M शब्दों तक है, और इसमें 503 चुनौतीपूर्ण चार विकल्प प्रश्न शामिल हैं, जिनकी कठिनाई बहुत अधिक है, यहां तक कि मानव विशेषज्ञों की 15 मिनट में औसत सटीकता केवल 53.7% है। इसके अलावा, यह मानक परीक्षण छह प्रमुख कार्य श्रेणियों को कवर करता है, जिसमें एकल दस्तावेज़ प्रश्नोत्तर, बहु-दस्तावेज़ प्रश्नोत्तर, लंबे पाठ संदर्भ अध्ययन आदि शामिल हैं, जो व्यापक अनुप्रयोग परिदृश्यों को सुनिश्चित करता है।

微信截图_20241220160723.png

मूल्यांकन की विश्वसनीयता सुनिश्चित करने के लिए, LongBench v2 के सभी प्रश्न बहुविकल्पीय प्रश्नों के रूप में हैं, और इन्हें सख्त मानव लेबलिंग और समीक्षा प्रक्रियाओं के माध्यम से अनुमोदित किया गया है। डेटा संग्रह प्रक्रिया में, शीर्ष विश्वविद्यालयों से लेबलिंग करने वालों की भर्ती की गई, ताकि प्रश्नों की गुणवत्ता और कठिनाई सुनिश्चित की जा सके। नियंत्रण चर को शामिल करके, LongBench v2 ने मूल Bradley-Terry सांख्यिकीय विधि में सुधार किया है, जिससे भ्रमित करने वाले कारकों के प्रभाव को कम किया गया है, जिससे मॉडल रैंकिंग अधिक वैज्ञानिक और सटीक हो गई है।

मूल्यांकन परिणामों के संदर्भ में, अनुसंधान टीम ने 10 ओपन-सोर्स LLMs और 6 क्लोज़-सोर्स LLMs का परीक्षण किया, और पाया कि नियंत्रण चर को शामिल करने के बाद, मॉडल के प्रदर्शन में महत्वपूर्ण सुधार हुआ है। विशेष रूप से, GPT-4o मॉडल ने अधिक तर्क कदमों को शामिल करने के बाद बहु-दस्तावेज़ प्रश्नोत्तर और लंबे पाठ संदर्भ अध्ययन जैसे कार्यों में उत्कृष्ट प्रदर्शन किया, जो तर्क क्षमता के महत्व को दर्शाता है।

LongBench v2 का शुभारंभ केवल बड़े भाषा मॉडल के मूल्यांकन के लिए नए उपकरण प्रदान नहीं करता, बल्कि भविष्य के अनुसंधान के लिए दिशा भी निर्धारित करता है, जो मॉडल की अपनी समझ और तर्क क्षमता को बढ़ाने के महत्व पर जोर देता है। Zhiyuan अनुसंधान संस्थान और Tencent का सहयोग, AI तकनीक के क्षेत्र में आगे के विकास का प्रतीक है, और हम आशा करते हैं कि यह मानक परीक्षण लंबे पाठ समझ और तर्क तकनीकों की प्रगति को बढ़ावा दे सके।

मुखपृष्ठ:https://longbench2.github.io

पत्र:https://arxiv.org/abs/2412.15204

डेटा और कोड:https://github.com/THUDM/LongBench

DeepSeek से जुड़ने पर Tencent Documents AI माइंड मैप में हुआ विकास: नोड्स में एक क्लिक पर कंटेंट जेनरेट हो सकता है

26 फ़रवरी को, Tencent Documents ने घोषणा की कि इसके AI माइंड मैप फ़ंक्शन में एक बड़ा अपग्रेड आया है, DeepSeek तकनीक को जोड़ने से, यह और अधिक बुद्धिमान और कुशल ऑपरेशन अनुभव प्रदान करता है। उपयोगकर्ता अब केवल नोड पर क्लिक करके, एक क्लिक में कंटेंट जेनरेट कर सकते हैं, साथ ही इसमें चित्र और Markdown प्रारूप को एक क्लिक में माइंड मैप में बदलने की नई सुविधा जोड़ी गई है, जिससे सूचनाओं को व्यवस्थित करने और विचारों को व्यवस्थित करने में माइंड मैप की सुविधा में काफी वृद्धि हुई है।

डीपसीक के बाद! Tencent Yuanbao ने इसी में अपनी उत्कृष्टता के साथ Apple के मुफ्त ऐप डाउनलोड चार्ट में दूसरे स्थान पर पहुंच गया

आज, Apple एप्लिकेशन स्टोर के मुफ्त ऐप डाउनलोड चार्ट से एक नई खबर आई है, Tencent Yuanbao ने अपनी उत्कृष्ट उपलब्धियों के चलते डौबॉ के अलावा, चीन क्षेत्र में चार्ट में दूसरे स्थान पर पहुंच गया है, केवल वह स्थिरता से पहले स्थान पर बना हुआ DeepSeek के बाद। इस उपलब्धि के पीछे, Tencent Yuanbao के हालिया बड़े अपडेट का कोई मुकाबला नहीं है। 13 फरवरी को, Tencent Yuanbao ने आधिकारिक रूप से पूर्ण संस्करण Deepseek - R1 मॉडल को जोड़ा, इस प्रमुख विशेषता के समावेश ने उपयोगकर्ताओं को Tencent Yuanbao खोलने और संवाद इंटरफ़ेस में प्रवेश करने पर एक नई मुफ्त सेवा का अनुभव करने की अनुमति दी।

Tencent Yuanbao integrates DeepSeek response advertising Official response: Estimated to have started online search

आज, प्रसिद्ध वैज्ञानिक ब्लॉगर्स "तीन पिता प्रयोगशाला" ने वेइबो प्लेटफॉर्म के माध्यम से एक संदेश जारी किया है जिसमें कहा गया है कि Tencent के तहत युआनबाओ एप्लिकेशन ने DeepSeek तकनीक को एकीकृत किया है, और इसके जवाब में विज्ञापन सामग्री शामिल की गई है। ब्लॉगर्स द्वारा साझा की गई स्क्रीनशॉट में दिखाया गया है कि युआनबाओ एप्लिकेशन द्वारा प्रदान किए गए जोखिम बचाव सुझावों और सूचनाओं में स्पष्ट रूप से सुझाव दिया गया है कि उपयोगकर्ता उचित कीमत तुलना और आरक्षण के लिए 58 घर पर जैसे प्लेटफार्मों का उपयोग करें, और क्यूकाईहुइ या स्थानीय उचित पुनः प्राप्ति विक्रेताओं से पूछताछ करें, इन सुझावों को विज्ञापन इन्सर्शन के संदेह के रूप में पेश किया गया है।

Tencent Yuanbao में बड़ा अपडेट:混元和DeepSeek模型一起开启深度思考的新功能

हाल ही में, Tencent ने अपने AI सहायक 'Tencent Yuanbao' के लिए महत्वपूर्ण अपडेट जारी किया है, जिसमें दो उन्नत मॉडल - 混元 T1 और DeepSeek-R1 शामिल हैं, जिनमें गहन विचार क्षमताएँ हैं। यह अपडेट उपयोगकर्ताओं को जटिल समस्याओं का बेहतर ढंग से सामना करने और काम तथा अध्ययन की दक्षता बढ़ाने में सक्षम बनाता है। उपयोगकर्ता केवल Tencent Yuanbao डाउनलोड करके और खोलकर इन नए सुविधाओं का मुफ्त में अनुभव कर सकते हैं। गहन विचार मॉडल का डिज़ाइन जटिल कार्यों को हल करने के लिए किया गया है, और इसकी विशिष्टता यह है कि यह समस्या के कई पहलुओं और संभावित तार्किक संबंधों को समझने में सक्षम है। पारंपरिक मॉडल की तुलना में यह एक नई दृष्टिकोण प्रदान करता है।