हाल ही में, कैलिफोर्निया विश्वविद्यालय बर्कले के BAIR प्रयोगशाला के सर्गेई लेविन अनुसंधान समूह ने एक नया सुदृढीकरण सीखने का ढांचा प्रस्तुत किया है, जिसे HIL-SERL कहा जाता है, जिसका उद्देश्य वास्तविक दुनिया में जटिल संचालन कौशल सीखने में रोबोटों की समस्याओं को हल करना है।
यह नई तकनीक मानव प्रदर्शन और सुधार को प्रभावी सुदृढीकरण सीखने के एल्गोरिदम के साथ मिलाकर, रोबोटों को केवल 1 से 2.5 घंटे में विभिन्न सटीक और निपुण संचालन कार्यों जैसे कि गतिशील संचालन, सटीक असेंबली और दो-बुजुर्ग सहयोग को सीखने में सक्षम बनाती है।
पहले, रोबोट को नए कौशल सीखाना बहुत कठिन होता था, जैसे एक बच्चे को होमवर्क करना सिखाना, इसे हाथ से सिखाना पड़ता था और बार-बार सुधारना पड़ता था। और समस्या यह थी कि वास्तविक दुनिया में विभिन्न स्थितियाँ जटिल और बदलती रहती हैं, रोबोट अक्सर धीरे-धीरे सीखते हैं और जल्दी भूल जाते हैं, और एक छोटी सी गलती से मुसीबत में पड़ जाते हैं।
HIL-SERL ढांचा ऐसा है जैसे रोबोट के लिए एक "गृह शिक्षक" हो, न केवल विस्तृत "पाठ्यक्रम" है, यानी मानव प्रदर्शन और सुधार, बल्कि इसमें प्रभावी सीखने के एल्गोरिदम भी हैं, जो रोबोट को विभिन्न कौशल जल्दी से सीखने में मदद करते हैं।
आपको केवल कुछ बार प्रदर्शन करने की आवश्यकता है, और रोबोट विभिन्न कार्यों को प्रभावशाली ढंग से पूरा कर सकता है, जैसे कि ब्लॉक्स के साथ खेलना, पैनकेक पलटना, फर्नीचर असेंबल करना, सर्किट बोर्ड स्थापित करना, यह सब कुछ कर सकता है!
रोबोट को तेजी से और बेहतर सीखने के लिए, HIL-SERL ने एक मानव-रोबोट इंटरैक्शन सुधार तंत्र को भी पेश किया है। सरल शब्दों में, जब रोबोट गलती करता है, तो मानव ऑपरेटर तुरंत हस्तक्षेप कर सकता है, सुधार कर सकता है और इन सुधार जानकारी को रोबोट को वापस भेज सकता है। इस प्रकार, रोबोट लगातार गलतियों से सीख सकता है, दोहराने से बच सकता है, और अंततः एक असली विशेषज्ञ बन सकता है।
एक श्रृंखला के प्रयोगों के बाद, HIL-SERL का प्रभाव बहुत अच्छा है। विभिन्न कार्यों में, रोबोटों ने केवल 1 से 2.5 घंटे में लगभग 100% सफलता दर हासिल की है, और संचालन की गति भी पहले की तुलना में लगभग 2 गुना तेजी से बढ़ी है।
सबसे महत्वपूर्ण बात यह है कि HIL-SERL वास्तविक दुनिया में छवि इनपुट पर आधारित दो-बुजुर्ग समन्वय को लागू करने वाला पहला सुदृढीकरण सीखने वाला प्रणाली है, यानी यह दो रोबोटिक हाथों को सहयोग करने की अनुमति देती है, ताकि अधिक जटिल कार्यों को पूरा किया जा सके, जैसे कि उच्च समन्वय की आवश्यकता वाली असेंबली।
HIL-SERL की उपस्थिति ने न केवल हमें रोबोटों की सीखने की विशाल क्षमता दिखाई है, बल्कि भविष्य के औद्योगिक अनुप्रयोगों और अनुसंधान के लिए दिशा भी प्रदान की है। हो सकता है कि भविष्य में हमारे प्रत्येक घर में एक ऐसा रोबोट "शिक्षार्थी" हो, जो हमें घरेलू कामों में मदद करे, फर्नीचर असेंबल करे, और यहां तक कि हमारे साथ खेल भी सके, इस पर विचार करना बहुत सुखद है!
बेशक, HIL-SERL के कुछ सीमाएँ भी हैं। उदाहरण के लिए, कुछ दीर्घकालिक योजना की आवश्यकता वाले कार्यों के लिए, यह संभवतः सीमित हो सकता है। इसके अलावा, वर्तमान में HIL-SERL मुख्य रूप से प्रयोगशाला वातावरण में परीक्षण किया गया है, और इसे बड़े पैमाने पर वास्तविक परिदृश्यों में मान्य नहीं किया गया है। हालांकि, तकनीक की प्रगति के साथ, इन समस्याओं को धीरे-धीरे हल किया जाएगा।
पेपर का पता: https://hil-serl.github.io/static/hil-serl-paper.pdf
प्रोजेक्ट का पता: https://hil-serl.github.io/