नई परीक्षा चुनौती एआई बुद्धिमत्ता के स्तर को परखती है: ARC-AGI-2 शीर्ष मॉडल को भी चुनौती देता है

हाल ही में, आर्क प्राइज़ फाउंडेशन ने एक नया परीक्षण जारी किया है - ARC-AGI-2, जिसका उद्देश्य कृत्रिम बुद्धिमत्ता (AI) मॉडल के सामान्य बुद्धिमत्ता स्तर को मापना है। यह फाउंडेशन प्रसिद्ध AI शोधकर्ता फ्रांस्वा चोलेट द्वारा सह-स्थापित किया गया है। फाउंडेशन के ब्लॉग के अनुसार, यह नया परीक्षण अधिकांश अग्रणी AI मॉडल के लिए एक कठिन चुनौती पेश करता है।

आर्क प्राइज़ रैंकिंग के अनुसार, ओपनएआई का o1-pro और डीपसीक का R1 जैसे "तर्क आधारित" AI मॉडल ARC-AGI-2 परीक्षण में केवल 1% से 1.3% के बीच स्कोर करते हैं, जबकि अधिक शक्तिशाली गैर-तर्क आधारित मॉडल, जैसे GPT-4.5, Claude3.7Sonnet और Gemini2.0Flash का स्कोर भी लगभग 1% है। ARC-AGI परीक्षण में विभिन्न प्रकार की पहेली समस्याएँ शामिल हैं, जहाँ AI को विभिन्न रंगों के ब्लॉकों से दृश्य पैटर्न की पहचान करनी होती है और सही "उत्तर" ग्रिड उत्पन्न करना होता है। इन प्रश्नों का उद्देश्य AI को अपरिचित नई समस्याओं के अनुकूल होने के लिए मजबूर करना है।

मानव आधार स्थापित करने के लिए, आर्क प्राइज़ फाउंडेशन ने 400 से अधिक लोगों को ARC-AGI-2 परीक्षण में भाग लेने के लिए आमंत्रित किया। इन लोगों का औसत स्कोर 60% था, जो किसी भी AI मॉडल के स्कोर से कहीं अधिक है। चोलेट ने सोशल मीडिया पर कहा कि ARC-AGI-2 पिछले संस्करण ARC-AGI-1 की तुलना में AI मॉडल की वास्तविक बुद्धिमत्ता को अधिक प्रभावी ढंग से मापता है। नए परीक्षण का उद्देश्य यह आकलन करना है कि क्या AI सिस्टम अपने प्रशिक्षण डेटा से परे नए कौशल को कुशलतापूर्वक प्राप्त कर सकते हैं।

ARC-AGI-1 की तुलना में, ARC-AGI-2 के डिज़ाइन में कई सुधार किए गए हैं, विशेष रूप से "दक्षता" नामक एक नए मीट्रिक को शामिल किया गया है, और मॉडल को बिना मेमोरी पर निर्भर किए तुरंत पैटर्न की व्याख्या करने की आवश्यकता है। जैसा कि आर्क प्राइज़ फाउंडेशन के सह-संस्थापक ग्रेग कमराड्ट ने कहा, बुद्धिमत्ता केवल समस्याओं को हल करने की क्षमता में ही नहीं, बल्कि दक्षता में भी एक महत्वपूर्ण कारक है।

यह ध्यान देने योग्य है कि ओपनएआई का o3 मॉडल ARC-AGI-1 में 75.7% के स्कोर के साथ अद्वितीय था, जिसे 2024 तक पार नहीं किया गया था। हालाँकि, o3 का ARC-AGI-2 में स्कोर केवल 4% था, और प्रत्येक कार्य पर इसकी गणना लागत 200 डॉलर तक थी। ARC-AGI-2 का प्रकाशन तकनीकी क्षेत्र में नए AI प्रगति मापदंडों की बढ़ती मांग के समय हुआ है। हगिंग फेस के सह-संस्थापक थॉमस वोल्फ ने कहा है कि AI उद्योग में कृत्रिम सामान्य बुद्धिमत्ता की महत्वपूर्ण विशेषताओं, जिसमें रचनात्मकता भी शामिल है, को मापने के लिए पर्याप्त परीक्षणों का अभाव है।

इसके साथ ही, आर्क प्राइज़ फाउंडेशन ने 2025 के आर्क प्राइज़ प्रतियोगिता की भी घोषणा की है, जिसमें डेवलपर्स को ARC-AGI-2 परीक्षण में 85% की सटीकता प्राप्त करने की चुनौती दी गई है, और प्रत्येक कार्य की लागत केवल 0.42 डॉलर है।

मुख्य बातें:
🌟 ARC-AGI-2 आर्क प्राइज़ फाउंडेशन द्वारा जारी किया गया एक नया परीक्षण है, जिसका उद्देश्य AI की सामान्य बुद्धिमत्ता के स्तर को मापना है।
📉 वर्तमान में शीर्ष AI मॉडल इस परीक्षण में कम स्कोर करते हैं, जो मानव औसत से बहुत कम है।
🏆 आर्क प्राइज़ फाउंडेशन एक प्रतियोगिता भी आयोजित करेगा, जिसमें डेवलपर्स को नए परीक्षण में AI के प्रदर्शन को कम लागत पर बेहतर बनाने के लिए प्रोत्साहित किया जाएगा।

AI समाचार

नई परीक्षा चुनौती एआई बुद्धिमत्ता के स्तर को परखती है: ARC-AGI-2 शीर्ष मॉडल को भी चुनौती देता है

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

क्या Anthropic Claude3.7Sonnet Max लॉन्च करने वाला है? Cursor के अपडेट ने बढ़ाई अटकलें

गूगल जेमिनी 2.0 फ्लैश ने विवाद खड़ा किया: AI आसानी से चित्रों से वॉटरमार्क हटाकर कॉपीराइट की चिंताएँ बढ़ाता है

बैडू ने जारी किया वेंक्सिन 4.5 और X1 बड़ा मॉडल, कीमत में भारी कमी से हुआ ध्यान आकर्षण