हाल ही में, OpenAI ने SimpleQA नामक एक नया बेंचमार्क परीक्षण जारी किया है, जिसका उद्देश्य भाषा मॉडल द्वारा उत्पन्न उत्तरों की तथ्यात्मक सटीकता का मूल्यांकन करना है।

बड़े भाषा मॉडल के तेजी से विकास के साथ, उत्पन्न सामग्री की सटीकता सुनिश्चित करने में कई चुनौतियाँ हैं, विशेष रूप से तथाकथित "幻觉" घटनाएँ, जहाँ मॉडल आत्मविश्वास से भरे उत्तर उत्पन्न करता है जो वास्तव में गलत या अप्रमाणित होते हैं। यह स्थिति तब और भी महत्वपूर्ण हो जाती है जब अधिक से अधिक लोग जानकारी के लिए AI पर निर्भर हो रहे हैं।

image.png

SimpleQA की डिज़ाइन की विशेषता यह है कि यह छोटे और स्पष्ट प्रश्नों पर केंद्रित है, जिनका सामान्यतः एक निश्चित उत्तर होता है, जिससे यह मूल्यांकन करना आसान होता है कि मॉडल का उत्तर सही है या नहीं। अन्य बेंचमार्क के विपरीत, SimpleQA के प्रश्नों को सावधानीपूर्वक डिज़ाइन किया गया है, ताकि यहां तक कि सबसे उन्नत मॉडल जैसे GPT-4 को भी चुनौती दी जा सके। इस बेंचमार्क में 4326 प्रश्न शामिल हैं, जो इतिहास, विज्ञान, तकनीक, कला और मनोरंजन जैसे कई क्षेत्रों को कवर करते हैं, विशेष रूप से मॉडल की सटीकता और कैलिब्रेशन क्षमता का मूल्यांकन करने पर ध्यान केंद्रित करते हैं।

SimpleQA की डिज़ाइन कुछ महत्वपूर्ण सिद्धांतों का पालन करती है। पहले, प्रत्येक प्रश्न के लिए दो स्वतंत्र AI प्रशिक्षकों द्वारा निर्धारित एक संदर्भ उत्तर होता है, जो उत्तर की सटीकता सुनिश्चित करता है।

दूसरे, प्रश्नों का सेटअप अस्पष्टता से बचता है, प्रत्येक प्रश्न का एक सरल और स्पष्ट उत्तर होता है, जिससे मूल्यांकन अपेक्षाकृत आसान हो जाता है। इसके अतिरिक्त, SimpleQA ने उत्तरों को "सही", "गलत" या "कोई प्रयास नहीं" के रूप में स्पष्ट रूप से चिह्नित करने के लिए ChatGPT वर्गीकर्ता का उपयोग किया है।

SimpleQA का एक और लाभ यह है कि यह विविध प्रश्नों को कवर करता है, जिससे मॉडल अत्यधिक विशेषीकृत होने से बचता है, और यह सुनिश्चित करता है कि समग्र मूल्यांकन हो। इस डेटा सेट का उपयोग सरल है क्योंकि प्रश्न और उत्तर दोनों छोटे हैं, जिससे परीक्षण तेजी से चलता है और परिणामों में बदलाव कम होता है। इसके अलावा, SimpleQA ने जानकारी की दीर्घकालिक प्रासंगिकता पर भी विचार किया है, जिससे जानकारी में परिवर्तन के कारण प्रभावों से बचा जा सके, जिससे यह एक "हमेशा हरा" बेंचमार्क बन जाता है।

image.png

SimpleQA का प्रकाशन AI द्वारा उत्पन्न जानकारी की विश्वसनीयता को बढ़ावा देने के लिए एक महत्वपूर्ण कदम है। यह न केवल उपयोग में आसान बेंचमार्क परीक्षण प्रदान करता है, बल्कि शोधकर्ताओं और डेवलपर्स के लिए एक उच्च मानक स्थापित करता है, उन्हें ऐसा मॉडल बनाने के लिए प्रोत्साहित करता है जो न केवल भाषा उत्पन्न कर सके बल्कि सच्चाई और सटीकता में भी सक्षम हो। ओपन-सोर्स के माध्यम से, SimpleQA AI समुदाय को एक मूल्यवान उपकरण प्रदान करता है, जो भाषा मॉडल की तथ्यात्मक सटीकता को बढ़ाने में मदद करता है, ताकि भविष्य के AI सिस्टम जानकारी प्रदान करने के साथ-साथ विश्वसनीय भी हो सकें।

प्रोजेक्ट लिंक: https://github.com/openai/simple-evals

विवरण पृष्ठ: https://openai.com/index/introducing-simpleqa/

मुख्य बिंदु:

📊 SimpleQA OpenAI द्वारा प्रस्तुत एक नया बेंचमार्क है, जो भाषा मॉडल की तथ्यात्मक सटीकता का मूल्यांकन करने पर केंद्रित है।  

🧠 यह बेंचमार्क 4326 छोटे और स्पष्ट प्रश्नों से बना है, जो कई क्षेत्रों को कवर करता है, जिससे समग्र मूल्यांकन सुनिश्चित होता है।  

🔍 SimpleQA शोधकर्ताओं को भाषा मॉडल की सटीक सामग्री उत्पन्न करने की क्षमता पहचानने और बढ़ाने में मदद करता है।