शोध टीम ने एक रोमांचक प्रगति की घोषणा की है, उन्होंने HOVER (ह्यूमनॉइड मल्टीफंक्शनल कंट्रोलर) नामक एक नए न्यूरल नेटवर्क का विकास किया है। इस न्यूरल नेटवर्क में 1.5 मिलियन पैरामीटर हैं, जो मानवाकार रोबोट के गति और संचालन को समन्वयित करने के लिए विशेष रूप से डिज़ाइन किया गया है।

image.png

NVIDIA के वरिष्ठ शोध प्रबंधक जिम फैन ने कहा: "हर आधारभूत मॉडल को विशाल होने की आवश्यकता नहीं है। हमने जो 1.5M पैरामीटर वाला न्यूरल नेटवर्क प्रशिक्षित किया है, वह मानवाकार रोबोट के शरीर को नियंत्रित करने के लिए है।" उन्होंने आगे बताया कि HOVER मानव आंदोलन में अंतर्ज्ञान प्रक्रियाओं को पकड़ने में सक्षम है, जिससे रोबोट बिना जटिल प्रोग्रामिंग के जटिल कार्यों को पूरा कर सकता है। उन्होंने कहा, "मानव चलने, संतुलन बनाए रखने और अंगों को लचीले ढंग से संचालित करने के लिए बहुत सारे अंतर्ज्ञान प्रसंस्करण की आवश्यकता होती है।"

प्रशिक्षण प्रक्रिया के दौरान, HOVER ने NVIDIA के आइज़ैक सिमुलेशन प्लेटफॉर्म का उपयोग किया, जो भौतिक अनुकरण को वास्तविक समय की तुलना में 10,000 गुना तेज करता है।

जिम फैन ने खुलासा किया कि इस मॉडल का एक वर्ष तक आभासी वातावरण में प्रशिक्षण हुआ, जबकि वास्तव में केवल लगभग 50 मिनट का वास्तविक समय लगा, जो एकल GPU पर पूरा हुआ। उन्होंने कहा कि यह कुशल प्रशिक्षण न्यूरल नेटवर्क को वास्तविक अनुप्रयोगों में बिना किसी ट्यूनिंग के सफलतापूर्वक स्थानांतरित करने में सक्षम बनाता है।

HOVER विभिन्न उच्च स्तरीय गति निर्देशों के प्रति प्रतिक्रिया देने की क्षमता रखता है, जिसमें XR उपकरणों (जैसे एप्पल का विज़न प्रो) का उपयोग करके सिर और हाथ की मुद्रा को नियंत्रित करना, या मूवमेंट कैप्चर और RGB कैमरा के माध्यम से पूरे शरीर की मुद्रा प्राप्त करना शामिल है, यहां तक कि बाह्य कंकाल से संयुक्त कोण प्राप्त करना, या जॉयस्टिक से गति आदेश प्राप्त करना। फैन ने जोर देकर कहा कि HOVER विभिन्न इनपुट उपकरणों के रोबोटों के लिए एक एकीकृत इंटरफेस प्रदान करता है, जिससे प्रशिक्षण के लिए दूरस्थ संचालन डेटा संग्रह करना आसान हो जाता है।

इसके अलावा, HOVER ने ऊपरी दृष्टि-भाषा-क्रिया मॉडल के साथ एकीकृत किया है, जिससे गति निर्देश उच्च आवृत्ति पर निम्न स्तर के मोटर संकेतों में परिवर्तित हो सकते हैं। यह मॉडल किसी भी मानवाकार रोबोट के साथ संगत है जिसे आइज़ैक में अनुकरण किया जा सकता है, जिससे उपयोगकर्ता आसानी से रोबोट को जीवन दे सकते हैं।

इस साल की शुरुआत में, NVIDIA ने GR00T नामक एक परियोजना की भी घोषणा की, जो मानवाकार रोबोट के लिए डिज़ाइन किया गया एक सामान्य आधारभूत मॉडल है। GR00T (Generalist Robot00Technology) द्वारा संचालित रोबोट प्राकृतिक भाषा को समझ सकते हैं और क्रियाओं को देख कर मानव की गतिविधियों की नकल कर सकते हैं, जिससे वे तेजी से समन्वय, लचीलापन और अन्य कौशल सीख सकते हैं जो वास्तविक दुनिया में प्रभावी बातचीत के लिए आवश्यक हैं।

पेपर का लिंक: https://arxiv.org/pdf/2410.21229

मुख्य बिंदु:

- 🤖 NVIDIA ने HOVER पेश किया, जो 1.5 मिलियन पैरामीटर वाला न्यूरल नेटवर्क है, जो मानवाकार रोबोट के गति और संचालन को नियंत्रित करने के लिए डिज़ाइन किया गया है।

- ⏳ HOVER ने आभासी वातावरण में एक वर्ष तक प्रशिक्षण लिया, वास्तविक प्रशिक्षण समय केवल 50 मिनट था, जिससे वास्तविक अनुप्रयोगों की दक्षता बढ़ी।

- 🎮 HOVER विभिन्न उच्च स्तरीय गति निर्देशों का समर्थन करता है, जो विभिन्न इनपुट उपकरणों के साथ मिलकर काम कर सकता है, रोबोट नियंत्रण के लिए एक एकीकृत इंटरफेस प्रदान करता है।