एक बारहवीं कक्षा के छात्र ने एक अभिनव प्लेटफ़ॉर्म बनाया है जो लोगों को Minecraft निर्माण में विभिन्न AI मॉडल के प्रदर्शन का मूल्यांकन करने की अनुमति देता है, जिससे कृत्रिम बुद्धिमत्ता मूल्यांकन के क्षेत्र में एक नया दृष्टिकोण सामने आया है।

पारंपरिक मूल्यांकन की सीमाओं का समाधान करने के लिए नया बेंचमार्किंग दृष्टिकोण

चूँकि पारंपरिक AI बेंचमार्किंग दृष्टिकोण की सीमाएँ तेज़ी से स्पष्ट होती जा रही हैं, इसलिए डेवलपर्स अधिक रचनात्मक मूल्यांकन पद्धतियों की तलाश कर रहे हैं। एक समूह के डेवलपर्स के लिए, Microsoft का सैंडबॉक्स निर्माण गेम Minecraft एक आदर्श विकल्प बन गया है।

हाई स्कूल के छात्र आदी सिंह ने अपनी टीम के साथ मिलकर Minecraft बेंचमार्क (संक्षेप में MC-बेंच) वेबसाइट विकसित की है जो AI मॉडल को आमने-सामने चुनौतियों में एक-दूसरे के साथ प्रतिस्पर्धा करने की अनुमति देती है, विभिन्न संकेतों के जवाब में Minecraft निर्माण बनाते हैं। उपयोगकर्ता बेहतर प्रदर्शन करने वाले मॉडल को वोट कर सकते हैं, और वोट करने के बाद ही वे प्रत्येक निर्माण के पीछे के AI निर्माता को देख पाते हैं।

सिंह का कहना है कि उन्होंने Minecraft को परीक्षण प्लेटफ़ॉर्म के रूप में चुना क्योंकि इसकी व्यापक लोकप्रियता है - अब तक के सबसे अधिक बिकने वाले वीडियो गेम के रूप में, यह उन लोगों के लिए भी सहज है जिन्होंने इसे कभी नहीं खेला है, यह तुरंत बता सकते हैं कि कौन सा ब्लॉक वाला अनानास बेहतर है।

"Minecraft लोगों के लिए AI विकास की प्रगति को देखना आसान बनाता है," सिंह ने TechCrunch को बताया। "लोग Minecraft से परिचित हैं, इसके लुक और फील से परिचित हैं।"

QQ20250321-094417.png

प्रमुख AI कंपनियों का समर्थन प्राप्त परियोजना

MC-बेंच में वर्तमान में 8 स्वयंसेवक शामिल हैं। वेबसाइट की जानकारी के अनुसार, Anthropic, Google, OpenAI और Alibaba ने इस परियोजना को सब्सिडी दी है, जिससे बेंचमार्किंग चलाने के लिए उनके उत्पादों का उपयोग करने की अनुमति मिलती है, लेकिन इन कंपनियों का परियोजना से कोई अन्य संबंध नहीं है।

सिंह ने परियोजना के भविष्य के दृष्टिकोण को साझा किया: "वर्तमान में, हम केवल सरल निर्माण कर रहे हैं, GPT-3 युग की तुलना में हमने जो प्रगति की है उस पर विचार कर रहे हैं, लेकिन हम दीर्घकालिक योजना और लक्ष्य-उन्मुख कार्यों में विस्तार करने की योजना बना रहे हैं। गेम केवल एजेंट तर्क का परीक्षण करने का एक माध्यम हो सकता है, यह वास्तविक जीवन की तुलना में अधिक सुरक्षित है, परीक्षण के मामले में अधिक नियंत्रणीय है, मेरे विचार से यह अधिक आदर्श है।"

Minecraft के अलावा, पोकेमॉन रेड, स्ट्रीट फाइटर और पिक्चर टेलीफोन जैसे गेम का उपयोग AI प्रयोग बेंचमार्क के रूप में भी किया जाता है, आंशिक रूप से क्योंकि AI बेंचमार्किंग स्वयं ही बेहद चुनौतीपूर्ण है।

QQ20250321-094426.png

जटिल संकेतकों के विकल्प के रूप में सहज मूल्यांकन

शोधकर्ता आमतौर पर मानकीकृत मूल्यांकन में AI मॉडल का परीक्षण करते हैं, लेकिन ये परीक्षण अक्सर AI को घरेलू लाभ प्रदान करते हैं। प्रशिक्षण विधि की विशेषताओं के कारण, मॉडल स्वाभाविक रूप से कुछ प्रकार के प्रश्नों में बेहतर होते हैं, खासकर स्मृति या बुनियादी तर्क से जुड़े कार्यों में।

यह विरोधाभास कई उदाहरणों में परिलक्षित होता है: OpenAI का GPT-4 LSAT परीक्षा में 88% अंक प्राप्त कर सकता है, लेकिन "स्ट्रॉबेरी" शब्द में कितने "R" हैं, इसका सही-सही पता नहीं लगा सकता; Anthropic का Claude 3.7 Sonnet मानकीकृत सॉफ्टवेयर इंजीनियरिंग बेंचमार्क में 62.3% की सटीकता प्राप्त करता है, लेकिन पोकेमॉन गेम खेलने में अधिकांश पाँच वर्षीय बच्चों से भी पीछे है।

तकनीकी दृष्टिकोण से, MC-बेंच एक प्रोग्रामिंग बेंचमार्क है, जिसके लिए मॉडल को निर्दिष्ट निर्माण बनाने के लिए कोड लिखने की आवश्यकता होती है, जैसे "स्नोमैन फ्रॉस्टी" या "एक आदिम समुद्र तट पर एक आकर्षक उष्णकटिबंधीय समुद्र तट केबिन"। लेकिन अधिकांश उपयोगकर्ताओं के लिए, कोड का गहन विश्लेषण करने की तुलना में स्नोमैन की उपस्थिति का मूल्यांकन करना अधिक सहज है, जिससे इस परियोजना में व्यापक अपील होती है और मॉडल के प्रदर्शन के बारे में अधिक डेटा एकत्र करने की उम्मीद है।

हालांकि इन अंकों के AI की व्यावहारिकता पर प्रभाव पर अभी भी बहस हो रही है, लेकिन सिंह को विश्वास है कि यह एक मजबूत संकेत है: "वर्तमान रैंकिंग मेरे द्वारा इन मॉडल का उपयोग करने के मेरे अनुभव के बहुत करीब है, जो कई शुद्ध पाठ बेंचमार्क से अलग है। शायद MC-बेंच कंपनियों को यह समझने में मदद कर सकता है कि क्या वे सही दिशा में आगे बढ़ रहे हैं।"