DigiRL
स्वायत्त सुदृढीकरण अधिगम का उपयोग करके बाहरी उपकरण नियंत्रण एजेंटों को प्रशिक्षित करने के लिए
सामान्य उत्पादप्रोग्रामिंगसुदृढीकरण अधिगमस्वायत्त अधिगम
DigiRL एक नवीन ऑनलाइन सुदृढीकरण अधिगम एल्गोरिथम है जिसका उपयोग बाहरी वातावरण में उपकरणों को नियंत्रित करने में सक्षम बुद्धिमान एजेंटों को प्रशिक्षित करने के लिए किया जाता है। यह खुले, वास्तविक दुनिया के Android कार्यों को हल करने के लिए एक स्वायत्त मूल्यांकन मॉडल (VLM) का उपयोग करता है। DigiRL के मुख्य लाभों में मौजूदा गैर-इष्टतम ऑफ़लाइन डेटासेट का उपयोग करने और ऑफ़लाइन से ऑनलाइन सुदृढीकरण अधिगम के माध्यम से एजेंट को अपनी कोशिशों और गलतियों से सीखने के लिए प्रोत्साहित करने की क्षमता शामिल है। यह मॉडल स्वचालित पाठ्यक्रम के निर्माण के लिए एक निर्देश स्तर मूल्य फलन का उपयोग करता है, जो एजेंट के लिए सबसे मूल्यवान कार्यों को प्राथमिकता देता है, और ट्रैक में लक्ष्य के लिए योगदान करने वाले अनुकूल कार्यों को चुनने के लिए एक चरण स्तर मूल्य फलन का उपयोग करता है।