रूलर (RULER)
लंबे पाठ भाषा मॉडल की तार्किकता का मूल्यांकन करने के लिए एक उचित मानदंड।
सामान्य उत्पादउत्पादकतालंबा पाठभाषा मॉडल
रूलर एक नया संश्लेषित मानदंड है जो लंबे पाठ भाषा मॉडल के लिए अधिक व्यापक मूल्यांकन प्रदान करता है। यह सामान्य पुनर्प्राप्ति परीक्षणों का विस्तार करता है, जिसमें विभिन्न प्रकार और मात्रा में सूचना बिंदु शामिल हैं। इसके अतिरिक्त, रूलर नए कार्य वर्गों को प्रस्तुत करता है, जैसे बहु-छलांग ट्रैकिंग और समेकन, जो संदर्भ से परे व्यवहार का परीक्षण करने के लिए हैं। रूलर पर 10 लंबे पाठ भाषा मॉडल का मूल्यांकन किया गया है और 13 प्रतिनिधि कार्यों में प्रदर्शन प्राप्त किया गया है। हालांकि इन मॉडलों ने सामान्य पुनर्प्राप्ति परीक्षणों में लगभग पूर्ण सटीकता प्राप्त की है, लेकिन संदर्भ लंबाई में वृद्धि के साथ, उनका प्रदर्शन बहुत खराब हो गया है। केवल चार मॉडल (GPT-4, Command-R, Yi-34B और Mixtral) 32K लंबाई पर काफी अच्छा प्रदर्शन करते हैं। हम लंबे पाठ भाषा मॉडल के व्यापक मूल्यांकन को बढ़ावा देने के लिए रूलर को सार्वजनिक रूप से उपलब्ध करा रहे हैं।
रूलर (RULER) नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
29742941
बाउंस दर
44.20%
प्रति विज़िट औसत पृष्ठ
5.9
औसत विज़िट अवधि
00:04:44