गहन अध्ययन के तेज विकास के लिए बड़े पैमाने पर डेटा सेट, मॉडल और गणना की मात्रा आवश्यक है। प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर दृष्टि के क्षेत्र में, शोधकर्ताओं ने मॉडल के प्रदर्शन और डेटा के आकार के बीच एक शक्ति कानून संबंध पाया है। हालाँकि, रोबोटिक्स क्षेत्र, विशेष रूप से रोबोट नियंत्रण क्षेत्र में, समान पैमाने के नियम स्थापित नहीं किए गए हैं।
तिनहुआ विश्वविद्यालय की शोध टीम ने हाल ही में एक पेपर प्रकाशित किया है, जो रोबोट अनुकरण अध्ययन में डेटा के पैमाने के नियमों की जांच करता है और एक कुशल डेटा संग्रह रणनीति प्रस्तुत करता है, जिसमें केवल एक अपराह्न में पर्याप्त डेटा एकत्र किया गया, जिससे रणनीति नए वातावरण और नए वस्तुओं पर लगभग 90% सफलता दर हासिल कर सकी।
शोधकर्ताओं ने सामान्यीकरण क्षमता को पर्यावरण सामान्यीकरण और वस्तु सामान्यीकरण के दो आयामों में विभाजित किया, और विभिन्न वातावरणों और वस्तुओं पर मानव प्रदर्शन डेटा एकत्र करने के लिए एक हाथ में पकड़ी गई ग्रिपर का उपयोग किया, और इन डेटा का मॉडलिंग करने के लिए फैलाव रणनीति का उपयोग किया। शोधकर्ताओं ने पहले पानी डालने और माउस रखने के दो कार्यों पर ध्यान केंद्रित किया, और नए वातावरण या नए वस्तुओं पर रणनीति के प्रदर्शन में वृद्धि के साथ डेटा के पैमाने के नियमों का सारांश तैयार किया।
शोध के परिणाम बताते हैं:
नई वस्तुओं, नए वातावरण या दोनों के लिए रणनीति की सामान्यीकरण क्षमता, क्रमशः प्रशिक्षण वस्तुओं, प्रशिक्षण वातावरण या प्रशिक्षण वातावरण- वस्तु जोड़ी की संख्या के साथ शक्ति कानून संबंध में है।
पर्यावरण और वस्तुओं की विविधता को बढ़ाना, प्रत्येक वातावरण या वस्तु के प्रदर्शन की संख्या बढ़ाने से अधिक प्रभावी है।
संभवतः अधिक से अधिक वातावरण में डेटा एकत्र करना (जैसे 32 वातावरण), प्रत्येक वातावरण में एक अद्वितीय संचालन वस्तु और 50 प्रदर्शन के साथ, एक मजबूत सामान्यीकरण क्षमता वाली रणनीति (सफलता दर 90%) को प्रशिक्षित करने में सक्षम बनाता है, जिससे यह नए वातावरण और नए वस्तुओं पर कार्य कर सके।
इन डेटा के पैमाने के नियमों के आधार पर, शोधकर्ताओं ने एक कुशल डेटा संग्रह रणनीति प्रस्तुत की। वे सुझाव देते हैं कि संभवतः अधिक से अधिक विभिन्न वातावरणों में डेटा एकत्र किया जाए, प्रत्येक वातावरण में केवल एक अद्वितीय वस्तु का उपयोग करें। जब पर्यावरण- वस्तु जोड़ी की कुल संख्या 32 तक पहुँच जाती है, तो आमतौर पर यह एक रणनीति को प्रशिक्षित करने के लिए पर्याप्त होती है जो नए वातावरण में कार्य कर सके और पहले कभी न देखी गई वस्तुओं के साथ बातचीत कर सके। प्रत्येक पर्यावरण- वस्तु जोड़ी के लिए, 50 प्रदर्शन एकत्र करने की सिफारिश की जाती है।
डेटा संग्रह रणनीति की सामान्य उपयुक्तता को सत्यापित करने के लिए, शोधकर्ताओं ने इसे दो नए कार्यों पर लागू किया: तौलिया मोड़ना और चार्जर निकालना। परिणाम बताते हैं कि यह रणनीति इन दोनों नए कार्यों पर भी मजबूत सामान्यीकरण क्षमता वाली रणनीतियों को प्रशिक्षित करने में सक्षम है।
यह अध्ययन दिखाता है कि केवल अपेक्षाकृत मध्यम समय और संसाधनों के निवेश से, किसी भी वातावरण और वस्तु पर शून्य नमूना तैनाती के लिए सक्षम एकल कार्य रणनीति सीखी जा सकती है। इस क्षेत्र में शोधकर्ताओं के प्रयासों का समर्थन करने के लिए, तिनहुआ टीम ने अपने कोड, डेटा और मॉडल जारी किए हैं, जिससे इस क्षेत्र में आगे के शोध को प्रेरित करने की उम्मीद है, अंततः जटिल, खुली दुनिया की समस्याओं को हल करने वाले सामान्य रोबोट का निर्माण किया जा सके।
पेपर का पता: https://arxiv.org/pdf/2410.18647