हाल ही में, तकनीकी दिग्गज माइक्रोसॉफ्ट ने एक आकर्षक शोध परियोजना सार्वजनिक की है - WHAMM (वर्ल्ड एंड ह्यूमन एक्शन मास्कGIT मॉडल)। यह एक अभिनव आर्टिफिशियल इंटेलिजेंस मॉडल है जो पूरी तरह से AI मॉडल के अंदर क्लासिक गेम "क्वेक II" उत्पन्न और चला सकता है, वास्तविक समय में एक खेल संस्करण प्रस्तुत करता है जिसे खिलाड़ी संचालित कर सकते हैं। यह शोध माइक्रोसॉफ्ट के कोपिलॉट लैब्स के अंतर्गत आता है, जिसका उद्देश्य इंटरैक्टिव मीडिया क्षेत्र में जनरेटिव AI की क्षमता और सीमा का पता लगाना है।

QQ_1743989625626.png

पारंपरिक तरीकों को बदलना: AI मॉडल सीधे खेल योग्य गेम उत्पन्न करता है

पहले के गेम AI मुख्य रूप से गेम के पात्रों को नियंत्रित करने या गेम कंटेंट के टुकड़े उत्पन्न करने पर केंद्रित थे, WHAMM की खासियत यह है कि यह शून्य से एक संपूर्ण गेम वातावरण और गतिशील प्रक्रिया उत्पन्न कर सकता है, और खिलाड़ियों के वास्तविक समय के संचालन का जवाब दे सकता है। इसका मतलब है कि खिलाड़ी सीधे AI मॉडल द्वारा "कल्पना" की गई "क्वेक II" दुनिया के साथ बातचीत कर सकते हैं, जैसे कि चलना, कूदना, शूटिंग करना और वस्तुओं को रखना। AI द्वारा उत्पन्न प्रदर्शन संस्करण खिलाड़ियों द्वारा पर्यावरण में किए गए परिवर्तनों को सहेज सकता है और छिपे हुए क्षेत्रों का पता लगाने की अनुमति देता है।

WHAMM माइक्रोसॉफ्ट के "Muse" मॉडल परिवार का एक सदस्य है, जो गेम डेवलपमेंट के लिए जनरेटिव AI टूल प्रदान करने पर केंद्रित है। पिछले संस्करण WHAM-1.6B को "ब्लीडिंग एज" गेम के लिए प्रशिक्षित किया गया था, लेकिन इसका प्रदर्शन प्रति सेकंड लगभग एक फ्रेम था। WHAMM ने प्रदर्शन में उल्लेखनीय वृद्धि हासिल की है, प्रति सेकंड दस से अधिक फ्रेम उत्पन्न करने में सक्षम है, जो मॉडल के अंदर वास्तविक समय की बातचीत का समर्थन करने के लिए पर्याप्त है।

तकनीकी सफलता: कम डेटा, तेजी से पीढ़ी

WHAMM की सफलता दो महत्वपूर्ण तकनीकी नवाचारों पर निर्भर करती है: डेटा प्रशिक्षण में भारी कमी और नई तकनीकी रणनीतियाँ। WHAM-1.6B ने प्रशिक्षण के लिए सात साल के गेम डेटा का उपयोग किया था, जबकि WHAMM को केवल एक सप्ताह में एकल स्तर से एकत्रित "क्वेक II" गेम डेटा की आवश्यकता होती है। पेशेवर परीक्षकों द्वारा रिकॉर्ड किए गए इस डेटा ने उच्च-गुणवत्ता, लक्षित गेम व्यवहार उदाहरण प्रदान किए, जिससे मॉडल अधिक कुशलता से सीख सका।

तकनीकी रणनीति में, WHAMM ने WHAM-1.6B द्वारा उपयोग की जाने वाली स्व-पुनरावर्ती विधि (प्रत्येक छवि लेबल को उत्पन्न करना) को त्याग दिया, और इसके बजाय MaskGIT रणनीति का उपयोग किया। यह विधि मॉडल को कई पुनरावृत्तियों में सभी छवि लेबल को समानांतर में उत्पन्न करने की अनुमति देती है। इस परिवर्तन ने पीढ़ी की गति में उल्लेखनीय वृद्धि की, और आउटपुट रिज़ॉल्यूशन को 300×180 पिक्सेल से बढ़ाकर 640×360 पिक्सेल कर दिया गया।

WHAMM सिस्टम का कार्यप्रवाह तीन चरणों में विभाजित है: सबसे पहले, ViT-VQGAN का उपयोग छवियों को लेबल में बदलने के लिए किया जाता है; फिर, लगभग 500 मिलियन पैरामीटर वाला एक "रीढ़ की हड्डी" ट्रांसफॉर्मर यह अनुमान लगाता है कि आगे क्या होगा; अंत में, 250 मिलियन पैरामीटर वाला एक छोटा "परिशोधन" मॉड्यूल कई पुनरावृत्तियों के माध्यम से अनुमानित छवि लेबल में सुधार करता है। नए फ्रेम उत्पन्न करने के लिए, मॉडल पहले नौ छवि-क्रिया जोड़ों को संदर्भ के रूप में उपयोग करता है।

सीमाएँ अभी भी मौजूद हैं: AI गेम डेवलपमेंट के भविष्य की दिशा की खोज

हालांकि WHAMM ने उत्साहजनक क्षमता दिखाई है, लेकिन यह मूल "क्वेक II" की सही प्रतिकृति नहीं है। प्रशिक्षण डेटा सेट की सीमा के कारण, मॉडल द्वारा उत्पन्न वातावरण अनुमानित है, जिससे कुछ तकनीकी कमियाँ हुई हैं। उदाहरण के लिए, दुश्मन के पात्र धुंधले दिखते हैं, लड़ाई में यथार्थवाद की कमी है, और स्वास्थ्य संकेतक अविश्वसनीय हैं। इसके अलावा, यदि कोई वस्तु स्क्रीन के बाहर 0.9 सेकंड (मॉडल की संदर्भ विंडो सीमा) से अधिक समय तक रहती है, तो वह गायब हो जाती है। खेल योग्य क्षेत्र केवल स्तर के एक भाग तक ही सीमित है, और एक बार उस क्षेत्र के अंत तक पहुँचने पर सिमुलेशन बंद हो जाता है। साथ ही, इनपुट विलंब अभी भी अधिक है, खिलाड़ी के संचालन और सिस्टम प्रतिक्रिया के बीच एक स्पष्ट विलंब है।

माइक्रोसॉफ्ट WHAMM को भविष्य के AI-सहायक गेम डेवलपमेंट के लिए एक प्रयोगात्मक आधार के रूप में देखता है। यह वर्तमान में गेम डेवलपमेंट में जनरेटिव AI को कैसे लागू किया जाए, इस खोज के कई नए उभरते उपकरणों में से एक का भी प्रतिनिधित्व करता है। इसी तरह के अन्य प्रयासों में GameGen-O (ओपन-वर्ल्ड सिमुलेशन उत्पन्न करने पर केंद्रित), और Google और Deepmind के GameNGen और DIAMOND ("DOOM" और "काउंटर-स्ट्राइक" जैसे गेम का अनुकरण करने के लिए) शामिल हैं। इन मॉडलों ने हालांकि उल्लेखनीय प्रगति की है, लेकिन वे अभी भी कम रिज़ॉल्यूशन आउटपुट, सीमित मेमोरी और संदर्भ जागरूकता जैसी तकनीकी सीमाओं का सामना कर रहे हैं।

गेम उद्योग AI को अपना रहा है: लागत कम करने और दक्षता बढ़ाने की क्षमता

गेम उद्योग विशेष रूप से जनरेटिव AI को अपनाने के लिए अतिसंवेदनशील है, क्योंकि इसमें कोड, डिज़ाइन, कहानी कहने और मल्टीमीडिया जैसे कई विषय शामिल हैं, और विकास चक्र अक्सर बजट और समय की कमी से प्रभावित होते हैं। इस रचनात्मक जटिलता और संसाधन दबाव के संयोजन से गेम निर्माण विशेष रूप से उन उपकरणों को स्वीकार करने के लिए अतिसंवेदनशील हो जाता है जो आंशिक रूप से संरचित कार्यों को स्वचालित कर सकते हैं।

सारांश

माइक्रोसॉफ्ट द्वारा जारी किया गया WHAMM मॉडल AI मॉडल के अंदर वास्तविक समय में खेलने योग्य "क्वेक II" डेमो उत्पन्न करके इंटरैक्टिव मनोरंजन क्षेत्र में जनरेटिव AI की विशाल क्षमता को प्रदर्शित करता है। हालांकि वर्तमान में कुछ सीमाएँ हैं, लेकिन WHAMM की तकनीकी सफलता, जैसे कि अधिक कुशल डेटा लर्निंग और समानांतर छवि पीढ़ी रणनीतियाँ, AI-संचालित गेम डेवलपमेंट के लिए नए रास्ते खोलती हैं।