OpenAI द्वारा जारी किया गया नवीनतम मॉडल o3 ARC-AGI मानक परीक्षण में अद्भुत परिणाम प्राप्त करता है, मानक गणना परिस्थितियों में स्कोर 75.7% तक पहुँचता है, जबकि उच्च गणना संस्करण ने 87.5% का आंकड़ा छू लिया। यह उपलब्धि एआई अनुसंधान समुदाय को आश्चर्यचकित करती है, लेकिन फिर भी यह साबित नहीं कर सकती कि कृत्रिम बुद्धिमत्ता सामान्यता (AGI) को हल किया गया है।

ARC-AGI मानक परीक्षण अमूर्त तर्क पुस्तकालय (Abstract Reasoning Corpus) पर आधारित है, जिसका उद्देश्य एआई सिस्टम की नई कार्यों के लिए अनुकूलन और प्रवाह बुद्धिमत्ता प्रदर्शित करने की क्षमता का आकलन करना है। ARC में एक श्रृंखला के दृश्य पहेलियाँ शामिल हैं, जिन्हें वस्तुओं, सीमाओं और स्थानिक संबंधों जैसे मूल अवधारणाओं को समझने की आवश्यकता होती है। मानव इन पहेलियों को आसानी से हल कर सकते हैं, जबकि वर्तमान एआई सिस्टम इस मामले में बड़ी चुनौतियों का सामना कर रहे हैं। ARC को एआई मूल्यांकन में सबसे चुनौतीपूर्ण मानकों में से एक माना जाता है।

image.png

o3 का प्रदर्शन पिछले मॉडलों की तुलना में उल्लेखनीय रूप से बेहतर है। o1-पूर्वावलोकन और o1 मॉडल ने ARC-AGI पर 32% का उच्चतम स्कोर प्राप्त किया। इससे पहले, शोधकर्ता जेरमी बर्मन ने मिश्रित विधियों का उपयोग करते हुए Claude3.5Sonnet और आनुवंशिक एल्गोरिदम को मिलाकर 53% का स्कोर हासिल किया, जबकि o3 का आगमन एआई क्षमताओं में एक छलांग के रूप में देखा गया।

ARC के निर्माता फ्रैंकोइस चोललेट ने o3 की एआई क्षमताओं में गुणात्मक परिवर्तन की सराहना की, यह मानते हुए कि इसकी नई कार्यों के अनुकूलन क्षमता एक अभूतपूर्व स्तर तक पहुँच गई है।

हालांकि o3 का प्रदर्शन उत्कृष्ट है, लेकिन इसकी गणना लागत भी काफी अधिक है। निम्न गणना कॉन्फ़िगरेशन में, प्रत्येक पहेली को हल करने की लागत 17 से 20 डॉलर के बीच होती है, जिसमें 33 मिलियन टोकन की खपत होती है; जबकि उच्च गणना कॉन्फ़िगरेशन में, गणना लागत 172 गुना बढ़ जाती है, जिसमें अरबों टोकन का उपयोग होता है। हालाँकि, जैसे-जैसे तर्क की लागत धीरे-धीरे कम होती है, ये खर्चे और भी उचित हो सकते हैं।

image.png

o3 ने यह突破 कैसे हासिल किया, इस पर अभी तक कोई विस्तृत जानकारी नहीं है। कुछ वैज्ञानिकों का अनुमान है कि o3 ने एक प्रोग्राम सिंथेसिस विधि का उपयोग किया हो सकता है, जो श्रृंखला सोच और खोज तंत्र को जोड़ती है। जबकि अन्य वैज्ञानिक मानते हैं कि o3 संभवतः केवल आगे बढ़ते सुदृढीकरण शिक्षण के माध्यम से आया है।

image.png

हालांकि o3 ने ARC-AGI पर महत्वपूर्ण प्रगति की है, चोललेट ने जोर दिया कि ARC-AGI AGI का परीक्षण नहीं है, और o3 अभी भी AGI के मानकों तक नहीं पहुँचा है। यह कुछ सरल कार्यों पर अभी भी खराब प्रदर्शन करता है, जो मानव बुद्धिमत्ता के बीच मौलिक भिन्नता को दर्शाता है। इसके अलावा, o3 तर्क प्रक्रिया में अभी भी बाहरी सत्यापन पर निर्भर करता है, जो AGI की स्वतंत्र अध्ययन क्षमता से बहुत दूर है।

चोललेट की टीम o3 की क्षमताओं का परीक्षण करने के लिए नए चुनौतीपूर्ण मानकों का विकास कर रही है, और उम्मीद है कि इसके स्कोर को 30% से नीचे लाया जाएगा। उन्होंने कहा कि वास्तविक AGI का मतलब होगा कि सामान्य लोगों के लिए सरल लेकिन एआई के लिए कठिन कार्यों को लगभग असंभव बना देना।

मुख्य बिंदु:  

🌟 o3 ने ARC-AGI मानक परीक्षण में 75.7% का उच्च स्कोर प्राप्त किया, जो पिछले मॉडलों से बेहतर प्रदर्शन करता है।  

💰 o3 प्रत्येक पहेली को हल करने की लागत 17 से 20 डॉलर तक पहुँचती है, गणना की मात्रा विशाल है।  

🚫 हालाँकि o3 उत्कृष्ट प्रदर्शन करता है, विशेषज्ञों ने जोर दिया है कि यह अभी भी AGI के मानकों तक नहीं पहुँचा है।