हाल ही में, OpenAI द्वारा किए गए एक अध्ययन में दिखाया गया है कि भले ही कृत्रिम बुद्धिमत्ता प्रौद्योगिकी तेजी से विकसित हो रही है, वर्तमान में सबसे उन्नत भाषा मॉडल तथ्यात्मक प्रश्नों के उत्तर देने में अपेक्षा से काफी कम सफलता दर दिखाते हैं।

अध्ययन ने OpenAI के अपने SimpleQA बेंचमार्क परीक्षण का उपयोग किया, जिसमें 4,326 प्रश्न शामिल हैं, जो विज्ञान, राजनीति और कला जैसे विभिन्न क्षेत्रों को कवर करते हैं, प्रत्येक प्रश्न का एक स्पष्ट सही उत्तर है।

image.png

दो स्वतंत्र समीक्षकों द्वारा सत्यापन के बाद, परिणाम बताते हैं कि OpenAI का सबसे अच्छा मॉडल o1-preview की सटीकता केवल 42.7% है, जबकि GPT-4o की सटीकता थोड़ी कम है, केवल 38.2%। छोटे GPT-4o-mini की सटीकता तो केवल 8.6% है। इसके विपरीत, Anthropic का Claude मॉडल और भी खराब प्रदर्शन करता है, Claude-3.5-sonnet की सही दर केवल 28.9% है।

image.png

इस अध्ययन की कुंजी परीक्षण के डिजाइन में है, जो केवल AI के प्रदर्शन का परीक्षण करने के लिए नहीं है, बल्कि लोगों को यह समझने के लिए भी है कि AI मॉडल ज्ञान प्राप्ति में कितने सीमित हैं। शोधकर्ताओं ने जोर दिया कि उपयोगकर्ताओं को इन मॉडलों का उपयोग करते समय इन्हें जानकारी संसाधित करने के उपकरण के रूप में देखना चाहिए, न कि पूरी तरह से भरोसा करने के ज्ञान के स्रोत के रूप में। अधिक सटीक उत्तर प्राप्त करने के लिए, AI को विश्वसनीय डेटा प्रदान करना सबसे अच्छा होगा, न कि केवल इसके अंतर्निहित ज्ञान पर निर्भर रहना।

image.png

यह ध्यान देने योग्य है कि AI मॉडल अक्सर अपनी क्षमताओं का आकलन करने में अत्यधिक आशावादी होते हैं। शोधकर्ताओं ने पाया कि जब इन मॉडलों को अपने उत्तरों पर आत्मविश्वास स्कोर देने के लिए कहा जाता है, तो वे आमतौर पर अतिशयोक्तिपूर्ण सटीकता स्कोर प्रदान करते हैं। समान प्रश्नों के उत्तर देने के परीक्षण में, भले ही मॉडल कई बार एक ही उत्तर दें, उनकी वास्तविक सफलता दर उनके आत्म-आकलन की सटीकता से कम होती है। यह बाहरी आलोचना के साथ मेल खाता है कि भाषा मॉडल अक्सर बेतुके उत्तर देते हैं लेकिन आत्मविश्वास से भरे होते हैं।

शोधकर्ताओं का मानना है कि वर्तमान AI प्रणाली में तथ्यात्मक सटीकता में स्पष्ट कमी है, जिसे सुधारने की आवश्यकता है। साथ ही, उन्होंने एक खुला प्रश्न भी उठाया: क्या AI के संक्षिप्त तथ्यात्मक प्रश्नों के उत्तर देने की क्षमता इसकी लंबी और अधिक जटिल उत्तरों को संभालने की क्षमता की भविष्यवाणी कर सकती है। अधिक विश्वसनीय भाषा मॉडल के विकास का समर्थन करने के लिए, OpenAI ने SimpleQA बेंचमार्क का डेटा GitHub पर सार्वजनिक रूप से जारी किया है।

मुख्य बिंदु:

📊 OpenAI का अध्ययन दिखाता है कि सबसे उन्नत भाषा मॉडल तथ्यात्मक प्रश्नों के उत्तर देने में कम सफल होते हैं, अधिकतम केवल 42.7%।  

🤖 ये AI मॉडल अक्सर अपनी क्षमताओं को बढ़ा-चढ़ा कर पेश करते हैं, आत्मविश्वास स्कोर सामान्यतः अतिशयोक्तिपूर्ण होते हैं।  

🔍 OpenAI ने अधिक विश्वसनीय भाषा मॉडल के अध्ययन में मदद के लिए SimpleQA बेंचमार्क को सार्वजनिक किया है।