हाल ही में, कैलिफोर्निया विश्वविद्यालय बर्कले के BAIR प्रयोगशाला के सर्गेई लेविन अनुसंधान समूह ने एक नया सुदृढीकरण सीखने का ढांचा प्रस्तुत किया है, जिसे HIL-SERL कहा जाता है, जिसका उद्देश्य वास्तविक दुनिया में जटिल संचालन कौशल सीखने में रोबोटों की समस्याओं को हल करना है। 

यह नई तकनीक मानव प्रदर्शन और सुधार को प्रभावी सुदृढीकरण सीखने के एल्गोरिदम के साथ मिलाकर, रोबोटों को केवल 1 से 2.5 घंटे में विभिन्न सटीक और निपुण संचालन कार्यों जैसे कि गतिशील संचालन, सटीक असेंबली और दो-बुजुर्ग सहयोग को सीखने में सक्षम बनाती है।

पहले, रोबोट को नए कौशल सीखाना बहुत कठिन होता था, जैसे एक बच्चे को होमवर्क करना सिखाना, इसे हाथ से सिखाना पड़ता था और बार-बार सुधारना पड़ता था। और समस्या यह थी कि वास्तविक दुनिया में विभिन्न स्थितियाँ जटिल और बदलती रहती हैं, रोबोट अक्सर धीरे-धीरे सीखते हैं और जल्दी भूल जाते हैं, और एक छोटी सी गलती से मुसीबत में पड़ जाते हैं।

image.png

HIL-SERL ढांचा ऐसा है जैसे रोबोट के लिए एक "गृह शिक्षक" हो, न केवल विस्तृत "पाठ्यक्रम" है, यानी मानव प्रदर्शन और सुधार, बल्कि इसमें प्रभावी सीखने के एल्गोरिदम भी हैं, जो रोबोट को विभिन्न कौशल जल्दी से सीखने में मदद करते हैं।

आपको केवल कुछ बार प्रदर्शन करने की आवश्यकता है, और रोबोट विभिन्न कार्यों को प्रभावशाली ढंग से पूरा कर सकता है, जैसे कि ब्लॉक्स के साथ खेलना, पैनकेक पलटना, फर्नीचर असेंबल करना, सर्किट बोर्ड स्थापित करना, यह सब कुछ कर सकता है!

रोबोट को तेजी से और बेहतर सीखने के लिए, HIL-SERL ने एक मानव-रोबोट इंटरैक्शन सुधार तंत्र को भी पेश किया है। सरल शब्दों में, जब रोबोट गलती करता है, तो मानव ऑपरेटर तुरंत हस्तक्षेप कर सकता है, सुधार कर सकता है और इन सुधार जानकारी को रोबोट को वापस भेज सकता है। इस प्रकार, रोबोट लगातार गलतियों से सीख सकता है, दोहराने से बच सकता है, और अंततः एक असली विशेषज्ञ बन सकता है।

image.png

एक श्रृंखला के प्रयोगों के बाद, HIL-SERL का प्रभाव बहुत अच्छा है। विभिन्न कार्यों में, रोबोटों ने केवल 1 से 2.5 घंटे में लगभग 100% सफलता दर हासिल की है, और संचालन की गति भी पहले की तुलना में लगभग 2 गुना तेजी से बढ़ी है।

सबसे महत्वपूर्ण बात यह है कि HIL-SERL वास्तविक दुनिया में छवि इनपुट पर आधारित दो-बुजुर्ग समन्वय को लागू करने वाला पहला सुदृढीकरण सीखने वाला प्रणाली है, यानी यह दो रोबोटिक हाथों को सहयोग करने की अनुमति देती है, ताकि अधिक जटिल कार्यों को पूरा किया जा सके, जैसे कि उच्च समन्वय की आवश्यकता वाली असेंबली।

HIL-SERL की उपस्थिति ने न केवल हमें रोबोटों की सीखने की विशाल क्षमता दिखाई है, बल्कि भविष्य के औद्योगिक अनुप्रयोगों और अनुसंधान के लिए दिशा भी प्रदान की है। हो सकता है कि भविष्य में हमारे प्रत्येक घर में एक ऐसा रोबोट "शिक्षार्थी" हो, जो हमें घरेलू कामों में मदद करे, फर्नीचर असेंबल करे, और यहां तक कि हमारे साथ खेल भी सके, इस पर विचार करना बहुत सुखद है!

बेशक, HIL-SERL के कुछ सीमाएँ भी हैं। उदाहरण के लिए, कुछ दीर्घकालिक योजना की आवश्यकता वाले कार्यों के लिए, यह संभवतः सीमित हो सकता है। इसके अलावा, वर्तमान में HIL-SERL मुख्य रूप से प्रयोगशाला वातावरण में परीक्षण किया गया है, और इसे बड़े पैमाने पर वास्तविक परिदृश्यों में मान्य नहीं किया गया है। हालांकि, तकनीक की प्रगति के साथ, इन समस्याओं को धीरे-धीरे हल किया जाएगा।

पेपर का पता: https://hil-serl.github.io/static/hil-serl-paper.pdf

प्रोजेक्ट का पता: https://hil-serl.github.io/