हाल ही में, कृत्रिम बुद्धिमत्ता मानक परीक्षण पर बहस सार्वजनिक ध्यान में बढ़ती जा रही है। OpenAI के एक कर्मचारी ने एलन मस्क द्वारा स्थापित AI कंपनी xAI पर Grok3 मानक परीक्षण परिणामों को भ्रामक बताने का आरोप लगाया, जबकि xAI के सह-संस्थापक इगोर बबुशकिन ने कंपनी के बारे में कोई समस्या होने का जोरदार खंडन किया।

इस घटना की शुरुआत तब हुई जब xAI ने अपने ब्लॉग पर एक चार्ट प्रकाशित किया, जिसमें AIME2025 परीक्षण में Grok3 के प्रदर्शन को दर्शाया गया। AIME2025 हाल ही में एक गणित आमंत्रण प्रतियोगिता में चुनौतीपूर्ण गणितीय प्रश्नों का एक सेट है। जबकि कुछ विशेषज्ञ AIME को AI मानक के रूप में प्रभावीता पर संदेह व्यक्त करते हैं, फिर भी इसे मॉडल की गणितीय क्षमता का आकलन करने के लिए व्यापक रूप से उपयोग किया जाता है।

xAI के चार्ट में दिखाया गया है कि Grok3 के दो रूपांतरण - Grok3Reasoning Beta और Grok3mini Reasoning AIME2025 में OpenAI के वर्तमान सर्वोत्तम मॉडल o3-mini-high से बेहतर प्रदर्शन कर रहे हैं। हालाँकि, OpenAI के कर्मचारियों ने जल्दी से यह इंगित किया कि xAI के चार्ट में AIME2025 में "cons@64" के तहत o3-mini-high का स्कोर शामिल नहीं था।

QQ_1740367365318.png

तो, cons@64 क्या है? यह "consensus@64" का संक्षेप है, सरल शब्दों में, यह मॉडल को प्रत्येक प्रश्न का उत्तर देने के लिए 64 बार प्रयास करने का अवसर प्रदान करता है और उत्पन्न उत्तरों में सबसे सामान्य उत्तर को अंतिम उत्तर के रूप में लेता है। कल्पना कीजिए, cons@64 की स्कोरिंग प्रणाली मॉडल के मानक स्कोर को महत्वपूर्ण रूप से बढ़ा सकती है, इसलिए यदि इस डेटा को चार्ट में छोड़ दिया गया, तो यह किसी एक मॉडल के प्रदर्शन को दूसरे मॉडल से बेहतर समझने का गलत प्रभाव डाल सकता है, जबकि वास्तव में ऐसा नहीं है।

Grok3Reasoning Beta और Grok3mini Reasoning के AIME2025 में "@1" स्कोर, यानी मॉडल के पहले प्रयास में प्राप्त स्कोर, वास्तव में o3-mini-high के स्कोर से कम हैं। और Grok3Reasoning Beta का प्रदर्शन OpenAI के o1 मॉडल से भी थोड़ा कम है। फिर भी, xAI ने Grok3 को "दुनिया की सबसे बुद्धिमान AI" के रूप में प्रचारित किया।

बबुशकिन ने सोशल मीडिया पर जवाब दिया कि OpenAI ने अतीत में भी इसी तरह के भ्रामक मानक चार्ट जारी किए हैं, मुख्य रूप से अपने मॉडल के प्रदर्शन की तुलना में। जबकि एक तटस्थ विशेषज्ञ ने विभिन्न मॉडलों के प्रदर्शन को एक अधिक "सटीक" चार्ट में संकलित किया, जिससे व्यापक चर्चा हुई।

QQ_1740367567952.png

इसके अलावा, AI शोधकर्ता नाथन लैंबर्ट ने बताया कि एक और महत्वपूर्ण मापदंड अभी भी अस्पष्ट है: विभिन्न मॉडलों को सर्वोत्तम स्कोर प्राप्त करने के लिए आवश्यक गणना (और वित्तीय) लागत। यह भी दर्शाता है कि वर्तमान में अधिकांश AI मानक परीक्षण जो जानकारी प्रदान करते हैं, वे मॉडल की सीमाओं और उनके लाभों के बारे में अभी भी सीमित हैं।

मुख्य बिंदु:

🔍 xAI और OpenAI के बीच Grok3 मानक परीक्षण परिणामों पर बहस ने व्यापक ध्यान आकर्षित किया।  

📊 xAI के चार्ट में OpenAI मॉडल के महत्वपूर्ण स्कोरिंग मापदंड "cons@64" का अभाव, भ्रामकता का कारण बन सकता है।  

💰 AI मॉडल के प्रदर्शन के पीछे, गणना और वित्तीय लागत अभी भी एक रहस्य है।