लंबे समय से, लोग सपने देख रहे हैं कि मानव के आकार के रोबोट मानव की तरह लचीले और स्वतंत्र रूप से चल सकें, बल्कि मानव से भी बेहतर। हालाँकि, वास्तविक दुनिया और अनुकरणीय वातावरण के बीच भौतिक भिन्नताओं के कारण, रोबोट के पूरे शरीर के समन्वय और चपलता से चलने को हासिल करना एक बड़ा चुनौती बनी हुई है। पारंपरिक प्रणाली पहचान और क्षेत्र यादृती विधियाँ अक्सर जटिल पैरामीटर समायोजन पर निर्भर होती हैं, या रोबोट की गतिविधियों को बहुत सतर्क बनाकर चपलता का त्याग करती हैं। अब, एक नया ढांचा जिसका नाम ASAP (अनुकूली अनुकरण और वास्तविक भौतिकी) है, सामने आया है, जो अनुकूली और वास्तविक भौतिक विशेषताओं को巧妙 तरीके से संरेखित करके मानव के आकार के रोबोट को अधिक लचीले पूरे शरीर के आंदोलन कौशल हासिल करने में सक्षम बनाता है।

image.png

ASAP ढांचा दो महत्वपूर्ण चरणों में विभाजित है। पहले, पूर्व-प्रशिक्षण चरण में, शोधकर्ता मानव गतिविधि वीडियो डेटा का उपयोग करते हैं, इन गतिविधियों को मानव के आकार के रोबोट पर फिर से मैप करते हैं, और फिर अनुकरणीय वातावरण में रोबोट को इन गतिविधियों को सीखने के लिए प्रशिक्षित करते हैं। हालाँकि, अनुकरणीय वातावरण में प्रशिक्षित रणनीतियों को सीधे वास्तविक रोबोट पर लागू करने से अक्सर प्रदर्शन में गिरावट आती है, क्योंकि अनुकरणीय वातावरण और वास्तविक दुनिया के बीच गतिशील भिन्नताएँ होती हैं। इस समस्या को हल करने के लिए, ASAP ढांचा दूसरे चरण में प्रवेश करता है - पश्चात-प्रशिक्षण चरण। इस चरण में, शोधकर्ता रोबोट को वास्तविक दुनिया में पूर्व-प्रशिक्षित गतिविधियों को करने देते हैं और रोबोट की वास्तविक गति की पथ को रिकॉर्ड करते हैं।

इसके बाद, ASAP ढांचा इन वास्तविक दुनिया के गति डेटा का उपयोग करके अनुकरणीय वातावरण में रोबोट के आंदोलन को पुन: उत्पन्न करेगा। चूंकि अनुकरणीय वातावरण और वास्तविक दुनिया के बीच भिन्नताएँ होती हैं, अनुकरणीय गति पथ अक्सर वास्तविक गति पथ से भटक जाती है। यह भिन्नता शोधकर्ताओं को सीखने का संकेत प्रदान करती है। ASAP एक "इंटरपोलेशन गतिविधि मॉडल" का प्रशिक्षण देगा, जो अनुकरण और वास्तविकता के बीच गतिशील भिन्नताओं को सीखने और मुआवजा देने में सक्षम होगा। यह मॉडल एक "त्रुटि सुधारक" के समान है, जो अनुकरणीय वातावरण में कमियों को सुधारता है, ताकि यह वास्तविक दुनिया की भौतिक विशेषताओं के करीब हो सके। अंत में, शोधकर्ता इस "इंटरपोलेशन गतिविधि मॉडल" को अनुकरणीय वातावरण में एकीकृत करेंगे और इसका उपयोग पूर्व-प्रशिक्षित गति ट्रैकिंग रणनीतियों को सूक्ष्म समायोजित करने के लिए करेंगे, ताकि रोबोट की गतिविधियाँ वास्तविक दुनिया की भौतिक विशेषताओं के अनुकूल हो सकें। सूक्ष्म समायोजित रणनीतियों को सीधे वास्तविक दुनिया के रोबोट पर लागू किया जा सकता है, बिना "इंटरपोलेशन गतिविधि मॉडल" की आवश्यकता के।

ASAP ढांचे की प्रभावशीलता को मान्य करने के लिए, शोधकर्ताओं ने कई प्रयोग किए, जिसमें विभिन्न अनुकरणीय वातावरणों के बीच स्थानांतरण और वास्तविक मानव के आकार के रोबोट Unitree G1 पर परीक्षण शामिल थे। प्रयोग के परिणाम बताते हैं कि ASAP ढांचे ने विभिन्न गतिशील आंदोलनों में रोबोट की चपलता और पूरे शरीर के समन्वय में महत्वपूर्ण रूप से सुधार किया है, पारंपरिक प्रणाली पहचान, क्षेत्र यादृती और गतिशील इंटरपोलेशन शिक्षण विधियों की तुलना में, ASAP ने गति ट्रैकिंग त्रुटियों को महत्वपूर्ण रूप से कम किया है।

ASAP ढांचे की सफलता इस बात में है कि यह अनुकरणीय वातावरण और वास्तविक दुनिया के बीच गतिशील भिन्नताओं को प्रभावी ढंग से समाप्त करता है, जिससे अनुकरणीय वातावरण में प्रशिक्षित मानव के आकार के रोबोट वास्तविक दुनिया में उच्च चपलता का प्रदर्शन कर सकें, जो अधिक लचीले और बहु-कार्यात्मक मानव के आकार के रोबोट के विकास के लिए एक नया दिशा प्रदान करता है।

ASAP ढांचे की प्रमुख तकनीकें शामिल हैं:

मानव गतिविधि डेटा का उपयोग करके पूर्व-प्रशिक्षण: मानव के चपल आंदोलनों को रोबोट के अध्ययन लक्ष्य में परिवर्तित करना, रोबोट को उच्च गुणवत्ता वाले गति डेटा प्रदान करना।

इंटरपोलेशन गतिविधि मॉडल का प्रशिक्षण: वास्तविक दुनिया और अनुकरणीय वातावरण के बीच भिन्नताओं को सीखकर, अनुकरणीय वातावरण की कमियों का गतिशील मुआवजा देना, अनुकरणीयता की सटीकता बढ़ाना।

इंटरपोलेशन गतिविधि मॉडल पर आधारित रणनीति सूक्ष्म समायोजन: रोबोट की रणनीतियों को वास्तविक दुनिया की भौतिक विशेषताओं के अनुकूल बनाना, अंततः उच्च गति प्रदर्शन हासिल करना।

ASAP ढांचे के प्रयोगात्मक सत्यापन से पता चलता है:

अनुकरणीय वातावरणों के बीच स्थानांतरण में, ASAP गति ट्रैकिंग त्रुटियों को महत्वपूर्ण रूप से कम कर सकता है, अन्य मानक विधियों की तुलना में।

वास्तविक रोबोट पर परीक्षण में, ASAP भी रोबोट के गति प्रदर्शन में महत्वपूर्ण रूप से सुधार कर सकता है, जिससे रोबोट उच्च कठिनाई के चपल आंदोलनों को पूरा कर सके।

यह अध्ययन इंटरपोलेशन गतिविधि मॉडल के प्रशिक्षण के प्रमुख कारकों की भी गहराई से जांच करता है, जिसमें डेटा सेट का आकार, प्रशिक्षण अवधि और गतिविधि मानक का वजन शामिल है। इसके अतिरिक्त, शोधकर्ताओं ने विभिन्न इंटरपोलेशन गतिविधि मॉडल उपयोग रणनीतियों की तुलना की, अंततः पुष्टि की कि सुदृढ़ीकरण शिक्षण सूक्ष्म समायोजन विधि सर्वोत्तम प्रदर्शन प्राप्त कर सकती है।

हालाँकि ASAP ढांचे ने महत्वपूर्ण प्रगति की है, फिर भी इसके कुछ सीमाएँ हैं, जैसे हार्डवेयर सीमाएँ, गति कैप्चर प्रणाली पर निर्भरता और डेटा की उच्च आवश्यकता। भविष्य के अनुसंधान दिशा में हार्डवेयर क्षति का पता लगाने के लिए रणनीति ढांचे का विकास, बिना लेबल के स्थिति अनुमान या ऑन-बोर्ड संवेदकों के फ्यूजन का उपयोग करके गति कैप्चर प्रणाली पर निर्भरता को कम करना, और अधिक कुशल इंटरपोलेशन गतिविधि मॉडल अनुकूलन तकनीकों का अन्वेषण करना शामिल हो सकता है।

ASAP ढांचे का आगमन मानव आकार के रोबोट क्षेत्र में नई आशा लेकर आया है। अनुकरण और वास्तविकता के बीच गतिशील भिन्नताओं की समस्या को巧妙 तरीके से हल करके, ASAP मानव आकार के रोबोट को अधिक चपल और समन्वित गति कौशल हासिल करने में सक्षम बनाता है, जो भविष्य में मानव आकार के रोबोट के व्यापक अनुप्रयोग के लिए एक मजबूत आधार प्रदान करता है।

प्रोजेक्ट लिंक: https://agile.human2humanoid.com/

पेपर लिंक: https://arxiv.org/pdf/2502.01143