रूलर (RULER)

लंबे पाठ भाषा मॉडल की तार्किकता का मूल्यांकन करने के लिए एक उचित मानदंड।

सामान्य उत्पादउत्पादकतालंबा पाठभाषा मॉडल
रूलर एक नया संश्लेषित मानदंड है जो लंबे पाठ भाषा मॉडल के लिए अधिक व्यापक मूल्यांकन प्रदान करता है। यह सामान्य पुनर्प्राप्ति परीक्षणों का विस्तार करता है, जिसमें विभिन्न प्रकार और मात्रा में सूचना बिंदु शामिल हैं। इसके अतिरिक्त, रूलर नए कार्य वर्गों को प्रस्तुत करता है, जैसे बहु-छलांग ट्रैकिंग और समेकन, जो संदर्भ से परे व्यवहार का परीक्षण करने के लिए हैं। रूलर पर 10 लंबे पाठ भाषा मॉडल का मूल्यांकन किया गया है और 13 प्रतिनिधि कार्यों में प्रदर्शन प्राप्त किया गया है। हालांकि इन मॉडलों ने सामान्य पुनर्प्राप्ति परीक्षणों में लगभग पूर्ण सटीकता प्राप्त की है, लेकिन संदर्भ लंबाई में वृद्धि के साथ, उनका प्रदर्शन बहुत खराब हो गया है। केवल चार मॉडल (GPT-4, Command-R, Yi-34B और Mixtral) 32K लंबाई पर काफी अच्छा प्रदर्शन करते हैं। हम लंबे पाठ भाषा मॉडल के व्यापक मूल्यांकन को बढ़ावा देने के लिए रूलर को सार्वजनिक रूप से उपलब्ध करा रहे हैं।
वेबसाइट खोलें

रूलर (RULER) नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

29742941

बाउंस दर

44.20%

प्रति विज़िट औसत पृष्ठ

5.9

औसत विज़िट अवधि

00:04:44

रूलर (RULER) विज़िट प्रवृत्ति

रूलर (RULER) विज़िट भौगोलिक वितरण

रूलर (RULER) ट्रैफ़िक स्रोत

रूलर (RULER) विकल्प