गेम विकास के क्षेत्र में, दृश्यों की विविधता और नवाचार हमेशा एक चुनौती रही है। हाल ही में, हांगकांग विश्वविद्यालय और काईशो टेक्नोलॉजी ने गेमफैक्टरी नामक एक नवोन्मेषी ढांचे का विकास किया है, जिसका उद्देश्य गेम वीडियो जनरेशन में दृश्य सामान्यीकरण की समस्या को हल करना है। यह ढांचा पूर्व-प्रशिक्षित वीडियो विस्फोट मॉडल का उपयोग करता है, जो खुली डोमेन वीडियो डेटा पर प्रशिक्षण दे सकता है, जिससे नए और विविध गेम दृश्यों का निर्माण होता है।

image.png

वीडियो विस्फोट मॉडल एक उन्नत जनरेशन तकनीक के रूप में, हाल के वर्षों में वीडियो जनरेशन और भौतिक अनुकरण के क्षेत्र में विशाल संभावनाएँ प्रदर्शित की हैं। ये मॉडल वीडियो जनरेशन उपकरणों की तरह उपयोगकर्ता के संचालन इनपुट जैसे कि कीबोर्ड और माउस का जवाब देते हैं, और तदनुसार गेम दृश्य उत्पन्न करते हैं। हालाँकि, दृश्य सामान्यीकरण, जो मौजूदा गेम दृश्यों से परे नए गेम दृश्यों का निर्माण करने की क्षमता है, इस क्षेत्र की एक बड़ी चुनौती बनी हुई है। यद्यपि क्रियाकलाप लेबल वाले वीडियो डेटा सेट को इकट्ठा करना इस समस्या का सीधा समाधान है, यह विधि समय लेने वाली और श्रमसाध्य है, विशेष रूप से खुली डोमेन दृश्यों में।

गेमफैक्टरी ढांचे का प्रक्षिप्तिकरण इस चुनौती को हल करने के लिए है। पूर्व-प्रशिक्षित वीडियो विस्फोट मॉडल के माध्यम से, गेमफैक्टरी विशेष गेम डेटा सेट पर अत्यधिक निर्भरता से बच सकता है और विविध गेम दृश्यों का निर्माण करने का समर्थन करता है। इसके अतिरिक्त, खुली डोमेन पूर्वज्ञान और सीमित गेम डेटा सेट के बीच की खाई को पाटने के लिए, गेमफैक्टरी ने एक अद्वितीय तीन-चरण प्रशिक्षण रणनीति अपनाई है।

पहले चरण में, LoRA (लो-रैंक अनुकूलन) का उपयोग करके पूर्व-प्रशिक्षित मॉडल को विशेष गेम डोमेन के अनुकूल बनाने के लिए समायोजित किया जाता है, जबकि मूल पैरामीटर को बनाए रखा जाता है। दूसरे चरण में, पूर्व-प्रशिक्षित पैरामीटर को फ्रीज किया जाता है, और क्रियाकलाप नियंत्रण मॉड्यूल के प्रशिक्षण पर ध्यान केंद्रित किया जाता है, ताकि शैली और नियंत्रण के बीच भ्रम से बचा जा सके। अंततः, तीसरे चरण में, LoRA वेट्स को हटा दिया जाता है, जबकि क्रियाकलाप नियंत्रण मॉड्यूल के पैरामीटर को बनाए रखा जाता है, जिससे सिस्टम विभिन्न खुली डोमेन दृश्यों में नियंत्रित गेम वीडियो उत्पन्न कर सके।

शोधकर्ताओं ने विभिन्न नियंत्रण तंत्र की प्रभावशीलता का मूल्यांकन किया और पाया कि क्रॉस-अटेंशन तंत्र कीबोर्ड इनपुट जैसे विवर्तनशील नियंत्रण संकेतों को संभालने में बेहतर प्रदर्शन करता है, जबकि स्टिचिंग विधि माउस मूवमेंट संकेतों को संभालने में बेहतर होती है। गेमफैक्टरी आत्म-प्रतिक्रिया क्रियाकलाप नियंत्रण का भी समर्थन करता है, जिससे अनंत लंबाई के इंटरएक्टिव गेम वीडियो उत्पन्न करना संभव होता है। इसके अतिरिक्त, शोध टीम ने गेमफैक्टरी के प्रशिक्षण और मूल्यांकन के लिए उच्च गुणवत्ता वाले क्रियाकलाप लेबल वीडियो डेटा सेट GF-Minecraft को भी जारी किया है।

पेपर: https://arxiv.org/abs/2501.08325

मुख्य बिंदु:

🌟 गेमफैक्टरी ढांचा हांगकांग विश्वविद्यालय और काईशो टेक्नोलॉजी द्वारा संयुक्त रूप से विकसित किया गया है, जिसका उद्देश्य गेम वीडियो जनरेशन में दृश्य सामान्यीकरण की समस्या को हल करना है।  

🎮 यह ढांचा पूर्व-प्रशिक्षित वीडियो विस्फोट मॉडल का उपयोग करता है, जो विविध गेम दृश्यों का निर्माण कर सकता है, और प्रभाव को बढ़ाने के लिए तीन-चरण प्रशिक्षण रणनीति अपनाता है।  

📊 शोधकर्ताओं ने गेमफैक्टरी के प्रशिक्षण और मूल्यांकन के लिए क्रियाकलाप लेबल वीडियो डेटा सेट GF-Minecraft को भी जारी किया है।