OpenAI टीम ने PaperBench नामक एक बेंचमार्क लॉन्च किया है जिसका उद्देश्य उन्नत AI अनुसंधान को दोहराने में AI एजेंटों की क्षमता का मूल्यांकन करना है। इस परीक्षण में AI एजेंटों को 2024 के इंटरनेशनल कॉन्फ्रेंस ऑन मशीन लर्निंग (ICML) के 20 प्रमुख और मौखिक पत्रों को शुरू से ही दोहराने की आवश्यकता होती है, जिसमें पेपर के योगदान को समझना, कोडबेस विकसित करना और सफलतापूर्वक प्रयोग करना शामिल है।

OpenAI, ChatGPT, कृत्रिम बुद्धिमत्ता, AI

मूल्यांकन की निष्पक्षता सुनिश्चित करने के लिए, शोधकर्ताओं ने विस्तृत स्कोरिंग मानदंड तैयार किए हैं। ये मानदंड प्रत्येक प्रतिकृति कार्य को कई स्तरों के उप-कार्यों में विभाजित करते हैं और स्पष्ट स्कोरिंग मानदंड निर्धारित करते हैं। PaperBench में कुल 8316 कार्य हैं जिनका अलग से स्कोर किया जा सकता है, और सभी स्कोरिंग मीट्रिक प्रत्येक पेपर के लेखकों के सहयोग से विकसित किए गए हैं ताकि उनकी सटीकता और वैधता सुनिश्चित हो सके।

बड़े पैमाने पर मूल्यांकन को प्राप्त करने के लिए, शोध दल ने एक बड़े भाषा मॉडल (LLM) आधारित स्वचालित स्कोरिंग सिस्टम भी विकसित किया है। यह सिस्टम पूर्व निर्धारित स्कोरिंग मानदंडों के अनुसार AI एजेंटों के प्रतिकृति प्रयासों का स्कोर कर सकता है, और टीम ने अपने प्रदर्शन का मूल्यांकन करने के लिए इस स्कोरिंग सिस्टम के लिए एक स्वतंत्र बेंचमार्क भी स्थापित किया है।

कई अत्याधुनिक AI मॉडल का मूल्यांकन करने के बाद, शोध में पाया गया कि सबसे अच्छा प्रदर्शन करने वाला एजेंट Claude3.5Sonnet (नया संस्करण) था, जिसका औसत प्रतिकृति स्कोर 21.0% था। इन परिणामों की आगे पुष्टि करने के लिए, शोधकर्ताओं ने कई शीर्ष मशीन लर्निंग पीएचडी छात्रों को PaperBench के कुछ कार्यों को करने के लिए भी आमंत्रित किया, और परिणामों से पता चला कि वर्तमान AI मॉडल अभी भी मानव प्रतिकृति क्षमता को पार नहीं कर पाए हैं।

भविष्य के शोध को बढ़ावा देने के लिए, OpenAI टीम ने अपने द्वारा विकसित कोड को ओपन सोर्स करने का निर्णय लिया है ताकि अधिक शोधकर्ता इस प्लेटफ़ॉर्म का उपयोग कर सकें और AI एजेंटों की इंजीनियरिंग क्षमता और AI अनुसंधान को दोहराने में उनकी क्षमता का गहनता से पता लगा सकें।

प्रोजेक्ट कोड:https://github.com/openai/preparedness/tree/main/project/paperbench

मुख्य बिंदु:

🌟 PaperBench एक नया बेंचमार्क है जिसका उपयोग AI एजेंटों की AI अनुसंधान को दोहराने की क्षमता का मूल्यांकन करने के लिए किया जाता है, जिसमें 20 ICML2024 पेपर शामिल हैं।

🔍 इस परीक्षण में 8316 अलग से स्कोर किए जा सकने वाले कार्य डिज़ाइन किए गए हैं, और स्कोरिंग मानदंड पेपर के लेखकों के साथ मिलकर विकसित किए गए हैं।

🤖 Claude3.5Sonnet परीक्षण में सबसे अच्छा प्रदर्शन करने वाला मॉडल है, लेकिन यह अभी भी शीर्ष मानव शोधकर्ताओं को पार नहीं कर पाया है।