हाल के वर्षों में सुदृढ़ीकरण सीखने ने कई सफलताएँ प्राप्त की हैं, लेकिन इसके नमूना दक्षता कम होने के कारण वास्तविक दुनिया में इसके अनुप्रयोगों को सीमित किया गया है। विश्व मॉडल एक पर्यावरण जनरेटिंग मॉडल के रूप में इस समस्या को हल करने की उम्मीद प्रदान करता है। यह सुदृढ़ीकरण सीखने के एजेंटों को उच्च नमूना दक्षता के साथ प्रशिक्षित करने के लिए एक अनुकरण पर्यावरण के रूप में कार्य कर सकता है।
वर्तमान में, अधिकांश विश्व मॉडल पर्यावरण गतिशीलता का अनुकरण करने के लिए विविक्त संभाव्य अनुक्रमों का उपयोग करते हैं। हालाँकि, इस संकुचन के माध्यम से संकुचित विविक्त प्रतिनिधित्व करने की विधि सुदृढ़ीकरण सीखने के लिए महत्वपूर्ण दृश्य विवरणों को नजरअंदाज कर सकती है।
इस बीच, प्रसार मॉडल छवि निर्माण के क्षेत्र में प्रमुख विधि बन गए हैं, पारंपरिक विविक्त संभाव्य मॉडलिंग विधियों को चुनौती देते हैं। इस प्रेरणा से, शोधकर्ताओं ने एक नई विधि पेश की है जिसे DIAMOND (पर्यावरण स्वप्न प्रसार मॉडल) कहा जाता है, जो प्रसार विश्व मॉडल में प्रशिक्षित सुदृढ़ीकरण सीखने के एजेंट है। DIAMOND ने डिजाइन में महत्वपूर्ण विकल्प बनाए हैं ताकि सुनिश्चित किया जा सके कि प्रसार मॉडल लंबे समय के दौरान दक्षता और स्थिरता बनाए रख सके।
DIAMOND ने प्रसिद्ध Atari100k मानक परीक्षण में 1.46 का औसत मानव मानकीकरण स्कोर प्राप्त किया, जो पूरी तरह से विश्व मॉडल में प्रशिक्षित एजेंटों के लिए सर्वोत्तम प्रदर्शन है। इसके अलावा, छवि स्थान में कार्य करने का लाभ यह है कि प्रसार विश्व मॉडल सीधे पर्यावरण को प्रतिस्थापित कर सकता है, जिससे विश्व मॉडल और एजेंट के व्यवहार को बेहतर समझा जा सके। शोधकर्ताओं ने पाया कि कुछ खेल प्रदर्शन में सुधार महत्वपूर्ण दृश्य विवरणों के बेहतर मॉडलिंग से उत्पन्न होता है।
DIAMOND की सफलता EDM (Elucidating the Design Space of Diffusion-based Generative Models) ढांचे के चयन पर निर्भर करती है। पारंपरिक DDPM (Denoising Diffusion Probabilistic Models) की तुलना में, EDM कम निष्क्रियता चरणों में उच्च स्थिरता दिखाता है, जिससे मॉडल में लंबे समय के दौरान गंभीर संचयी त्रुटियाँ उत्पन्न होने से बचता है।
इसके अलावा, DIAMOND ने यह भी प्रदर्शित किया है कि इसका प्रसार विश्व मॉडल इंटरैक्टिव न्यूरल गेम इंजन के रूप में कार्य कर सकता है। 87 घंटे के स्थिर "काउंटर-स्ट्राइक: ग्लोबल ऑफेंसिव" गेम डेटा पर प्रशिक्षण के माध्यम से, DIAMOND ने सफलतापूर्वक एक इंटरैक्टिव Dust II मानचित्र न्यूरल गेम इंजन उत्पन्न किया।
भविष्य में, DIAMOND अपने प्रदर्शन को और बढ़ाने के लिए अधिक उन्नत मेमोरी तंत्र, जैसे कि आत्म-प्रतिगामी Transformer को एकीकृत कर सकता है। इसके अलावा, प्रसार मॉडल में पुरस्कार/समापन भविष्यवाणी को एकीकृत करना भी एक अन्वेषणीय दिशा है।
पेपर का पता: https://arxiv.org/pdf/2405.12399