हाल ही में, एक अनोखी AI क्षमता परीक्षण "Minecraft" प्लेटफ़ॉर्म पर आयोजित की गई, जिसने बड़ी संख्या में ध्यान आकर्षित किया। पुराने और नए संस्करण के Claude3.5Sonnet ने खेल में निर्माण PK में भाग लिया, जिसमें स्पष्ट क्षमता के अंतर का प्रदर्शन किया गया, नए संस्करण (अस्थायी रूप से "Sonnet3.6" के रूप में जाना जाता है) का प्रदर्शन विशेष रूप से उत्कृष्ट था।

यह परीक्षण डेवलपर adi द्वारा शुरू किया गया था और इसे "एकमात्र विश्वसनीय परीक्षण मानक" के रूप में मजाक में कहा गया। परीक्षण मानक शोधकर्ता Aidan McLau का मानना है कि यह विधि वर्तमान AI परीक्षण की आवश्यकताओं को ठीक से पूरा करती है, और यह भी इंगित करती है कि सौंदर्य क्षमता और बुद्धिमत्ता स्तर के बीच निकट संबंध है। इस परियोजना को जल्दी ही ओपन-सोर्स समुदाय का समर्थन मिला, और संबंधित कोड GitHub पर उपलब्ध है।

image.png

परीक्षण परिणामों से पता चलता है कि विभिन्न मॉडलों ने अद्वितीय "व्यक्तित्व" का प्रदर्शन किया:

Sonnet3.6 ने रचनात्मकता के मामले में थोड़ा बेहतर प्रदर्शन किया, जिसमें 2000 से अधिक इंटरनेट उपयोगकर्ताओं का मतदान समर्थन प्राप्त हुआ।

OpenAI का o1-preview निर्माण की गति में धीमा होने के बावजूद, वास्तविक भवनों (जैसे ताज महल) को पुनर्स्थापित करने में उत्कृष्ट प्रदर्शन करता है।

o1-mini संबंधित कार्य को पूरा करने में असमर्थ रहा।

Llama3405B ने अपने "आत्म-प्रतीक" के रूप में "अग्नि गड्ढे पर हीरे की दीवार" का निर्माण किया।

अली का Qwen2.5-14B भी अच्छी क्षमता का प्रदर्शन करता है।

यह ध्यान देने योग्य है कि खेल में AI का निर्माण प्रक्रिया दृश्य समझ या सीधे नियंत्रण इनपुट उपकरणों पर निर्भर नहीं करता है, बल्कि यह पाठ के रूप में संदर्भ प्रदान करता है और संचालन निर्देशों को उत्पन्न करता है, जो अंधे शतरंज खेलने के समान है। तकनीकी कार्यान्वयन मुख्य रूप से इस पर निर्भर करता है:

mineflayer ओपन-सोर्स पुस्तकालय: AI द्वारा उत्पन्न निर्देशों को निष्पादन योग्य API कॉल में परिवर्तित करना।

mindcraft ओपन-सोर्स पुस्तकालय: सामान्य संकेत शब्द और उदाहरण प्रदान करना, विभिन्न मॉडलों को खेल में शामिल करने का समर्थन करना।

परियोजना समूह इस परीक्षण तंत्र को और अधिक विकसित करने की योजना बना रहा है, Lmsys एरेना के समान एक स्कोरिंग प्रणाली बनाने के लिए, मानव उपयोगकर्ता मतदान के आधार पर Elo एल्गोरिदम का उपयोग करके रैंकिंग करेगा। यह बताया गया है कि पूरा परीक्षण वातावरण केवल 15 मिनट में स्थापित किया जा सकता है।

यह नई परीक्षण विधि न केवल AI की रचनात्मकता को प्रदर्शित करती है, बल्कि बड़े मॉडलों की क्षमताओं के उद्देश्य मूल्यांकन के लिए एक नया दृष्टिकोण भी प्रदान करती है। जैसे कि o1-preview ने स्वतंत्र रूप से खेलते समय रोबोट बनाने और "GPT" शब्द का निर्माण करने का चयन किया, AI स्पष्ट रूप से इस आभासी दुनिया में अपना "व्यक्तित्व" दिखाने लगा है। अधिक मॉडलों के परीक्षण में शामिल होने के साथ, यह क्लासिक खेल AI विकास का एक अनोखा प्लेटफ़ॉर्म बनता जा रहा है।

वीडियो ट्यूटोरियल:

https://x.com/mckaywrigley/status/1849613686098506064

ओपन-सोर्स कोड:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator