सिंगापुर के नान्यांग टेक्नोलॉजी यूनिवर्सिटी की शोध टीम ने हाल ही में SOLAMI नामक एक AI तकनीक का खुलासा किया है, जो जीवंत 3D आभासी पात्रों का निर्माण कर सकती है। यह न केवल VR दुनिया में आपके साथ वास्तविक समय में बातचीत कर सकती है, बल्कि आपकी आवाज और गतिविधियों को भी समझ सकती है, आपके साथ बातचीत कर सकती है, नृत्य कर सकती है और यहां तक कि मुक्केबाज़ी भी कर सकती है! यह खेल, आभासी सामाजिकता और एकल लोगों के लिए एक वरदान है!

image.png

image.png

SOLAMI एक एंड-टू-एंड सामाजिक दृष्टि-भाषा-क्रिया (VLA) मॉडलिंग फ्रेमवर्क है, जो गहन शिक्षण तकनीकों का उपयोग करता है, ताकि उपयोगकर्ता की आवाज और गतिविधियों को आभासी पात्रों के लिए समझने योग्य "भाषा" में परिवर्तित किया जा सके, और उसके अनुसार आवाज और क्रिया प्रतिक्रिया उत्पन्न की जा सके। सरल शब्दों में, यह आपकी आवाज और गतिविधियों को AI के समझने योग्य भाषा में अनुवाद कर सकता है, और फिर आभासी पात्रों को उचित प्रतिक्रिया देने की अनुमति देता है, जैसे असली लोगों की तरह स्वाभाविक और सहजता से, पुराने AI पात्रों की कठोरता और यांत्रिकता को अलविदा कहते हुए।

image.png

इस AI "सोशल एक्सपर्ट" को प्रशिक्षित करने के लिए, शोध टीम ने बहुत मेहनत की है।

उन्होंने SynMSI नामक एक सिंथेटिक डेटा सेट बनाया, जिसमें संवाद, क्रियाएँ और आवाज डेटा की विशाल मात्रा शामिल है। ये डेटा यादृच्छिक रूप से एकत्रित नहीं किए गए हैं, बल्कि मौजूदा क्रिया डेटाबेस और शक्तिशाली भाषा मॉडल का उपयोग करके सावधानीपूर्वक डिजाइन और संसाधित किए गए हैं।

और भी प्रभावशाली यह है कि SOLAMI में एक VR इंटरफेस भी है, जो आपको आभासी पात्रों के साथ वास्तविकता में बातचीत करने की अनुमति देता है।

जब आप VR डिवाइस पहनते हैं, तो आप आभासी पात्रों को अपने सामने खड़ा देख सकते हैं, जो आपके साथ बातचीत करते हैं और क्रियाएँ करते हैं, जैसे कि आप वास्तविक सामाजिक दृश्य में उपस्थित हों।

शोध टीम ने कहा है कि SOLAMI तकनीक के अनुप्रयोग की संभावनाएँ बहुत व्यापक हैं, और भविष्य में यह खेल, आभासी सामाजिकता और शिक्षा प्रशिक्षण जैसे कई क्षेत्रों में क्रांति ला सकती है।

image.png

उदाहरण के लिए, खेल में NPC पात्र अधिक बुद्धिमान हो सकते हैं, जो आपके साथ असली लोगों की तरह बातचीत कर सकते हैं; आभासी सामाजिक मंच पर आभासी अवतार अधिक व्यक्तिगत हो सकते हैं, जिससे आप आभासी दुनिया में समान विचारधारा वाले दोस्तों को भी खोज सकते हैं; यहां तक कि आभासी शिक्षक भी बनाए जा सकते हैं, जिससे सीखना और भी जीवंत और दिलचस्प हो जाएगा।

बेशक, SOLAMI वर्तमान में अनुसंधान चरण में है, लेकिन इसकी विशाल क्षमता ने तकनीकी क्षेत्र को उत्साहित कर दिया है।

शोध टीम ने एक श्रृंखला के प्रयोगों के माध्यम से सिद्ध किया है कि SOLAMI क्रिया गुणवत्ता, आवाज गुणवत्ता और प्रतिक्रिया गति में मौजूदा विधियों से बेहतर है। अधिक महत्वपूर्ण बात यह है कि उपयोगकर्ता परीक्षण के परिणाम बताते हैं कि सभी लोग SOLAMI द्वारा निर्मित आभासी पात्रों से बहुत संतुष्ट हैं, लगता है कि "AI पत्नी/पति" का युग वास्तव में आ रहा है!

SOLAMI तकनीक की मुख्य विशेषताएँ:

एंड-टू-एंड VLA मॉडल: उपयोगकर्ता की आवाज और क्रियाओं को सीधे आभासी पात्रों की आवाज और क्रिया प्रतिक्रियाओं में परिवर्तित करता है, जिससे प्राकृतिक और सहज बातचीत का अनुभव होता है।

SynMSI सिंथेटिक डेटा सेट: मौजूदा क्रिया डेटा सेट और बड़े भाषा मॉडल का उपयोग करके, बड़ी मात्रा में बहु-चक्र बहु-मोडल संवाद डेटा स्वचालित रूप से उत्पन्न करता है, जिससे प्रशिक्षण डेटा की कमी की समस्या का समाधान होता है।

इमर्सिव VR इंटरफेस: उपयोगकर्ता VR डिवाइस के माध्यम से आभासी पात्रों के साथ आमने-सामने बातचीत कर सकते हैं, जिससे अधिक वास्तविक बातचीत का अनुभव होता है।

और भी बुद्धिमान, और अधिक मानवीय: SOLAMI अधिक बुद्धिमान और यथार्थवादी आभासी पात्रों का निर्माण कर सकता है, जिससे आभासी बातचीत का अनुभव और भी "मानवीय" बनता है।

शोध टीम ने कहा है कि SOLAMI तकनीक के अनुप्रयोग की संभावनाएँ बहुत व्यापक हैं, इसे खेल, आभासी सामाजिकता, शिक्षा प्रशिक्षण जैसे कई क्षेत्रों में उपयोग किया जा सकता है। उदाहरण के लिए, खेल में, SOLAMI अधिक बुद्धिमान और यथार्थवादी NPC पात्रों का निर्माण कर सकता है, जिससे खिलाड़ियों के खेल अनुभव में सुधार होता है; आभासी सामाजिकता में, SOLAMI उपयोगकर्ताओं को अधिक व्यक्तिगत आभासी अवतार बनाने में मदद कर सकता है, जिससे आभासी सामाजिकता का इमर्सिव अनुभव बढ़ता है; शिक्षा प्रशिक्षण में, SOLAMI अधिक जीवंत आभासी शिक्षकों का निर्माण कर सकता है, जिससे शिक्षण प्रभाव में सुधार होता है।

शोध टीम ने एक श्रृंखला के प्रयोग किए हैं, और परिणाम बताते हैं कि SOLAMI तकनीक क्रिया गुणवत्ता, आवाज गुणवत्ता और तर्क विलंब के मामले में मौजूदा अन्य विधियों से बेहतर है। उपयोगकर्ता अनुसंधान से भी पता चलता है कि उपयोगकर्ता SOLAMI तकनीक द्वारा निर्मित 3D आभासी पात्रों से बहुत संतुष्ट हैं।

वर्तमान में, SOLAMI तकनीक अभी भी अनुसंधान चरण में है, लेकिन इसका भविष्य विकास की क्षमता विशाल है, और यह हमें अधिक बुद्धिमान और अधिक मानवीय आभासी बातचीत का अनुभव देने की उम्मीद है।

प्रोजेक्ट होमपेज: https://solami-ai.github.io/

तकनीकी रिपोर्ट: https://arxiv.org/abs/2412.00174

पूर्ण परिचय वीडियो: https://www.bilibili.com/video/BV1D6zpYHEyc/