शंघाई जियाओ टोंग विश्वविद्यालय के X-LANCE आर्टिफिशियल इंटेलिजेंस प्रयोगशाला और बाइटडांस ने मिलकर LSLM (Listen-Speak Language Model) डुअल-फुल भाषा मॉडल विकसित किया है, जिससे AI सहायक बातचीत के दौरान बोलते और सुनते हुए वास्तविक समय में इंटरैक्शन कर सकते हैं।
जब आप AI सहायक से बात कर रहे होते हैं और अचानक एक महत्वपूर्ण प्रश्न याद आता है। आपको इसके बोलने का इंतजार नहीं करना पड़ता, आप सीधे उसे रोककर नया सवाल पूछ सकते हैं। AI सहायक तुरंत समझ सकता है और प्रतिक्रिया दे सकता है, जैसे कि यह किसी वास्तविक व्यक्ति से बातचीत कर रहा हो। यह अब विज्ञान कथा फिल्म का दृश्य नहीं है, बल्कि यह वास्तविकता बन चुका है।
LSLM की मुख्य ताकत इसकी "बोलते और सुनते" की क्षमता में है। यह अभिनव मॉडल न केवल बोलते समय बाहरी ध्वनियों को सुन सकता है, बल्कि वास्तविक समय में वॉयस इंटरैक्शन का समर्थन करता है, यहां तक कि शोर वाले वातावरण में भी यह सामान्य रूप से काम कर सकता है। यह सुनने और बोलने के दोनों चैनलों को कुशलता से एकीकृत करता है, और एक साथ वॉयस इनपुट को प्रोसेस और वॉयस आउटपुट उत्पन्न कर सकता है।
पारंपरिक वॉयस लैंग्वेज मॉडल (SLM) केवल बारी-बारी से बातचीत कर सकते हैं, और वास्तविक मौखिक स्थिति में तात्कालिक व्यवधान का सामना नहीं कर सकते। LSLM ने इस समस्या का समाधान किया है, जिससे AI और मानव के बीच की बातचीत अधिक स्वाभाविक हो गई है। यह टेक्स्ट-टू-स्पीच (TTS) सिस्टम के लिए टोकन-आधारित डिकोडर का उपयोग करता है, और स्ट्रीमिंग सेल्फ-सुपरवाइज्ड लर्निंग (SSL) एन्कोडर के साथ मिलकर वास्तविक समय में आत्म-प्रवृत्त उत्पादन और बातचीत के चक्र परिवर्तन की पहचान करता है।
शोध टीम ने प्रारंभिक एकीकरण, मध्य एकीकरण और अंतिम एकीकरण की तीन रणनीतियों का अन्वेषण किया, जिसमें मध्य एकीकरण ने वॉयस उत्पादन और वास्तविक समय इंटरैक्शन के बीच सबसे अच्छा संतुलन प्राप्त किया। कमांड-आधारित FDM और वॉयस-आधारित FDM दो प्रयोग सेटिंग्स के माध्यम से, LSLM ने शोर के प्रति मजबूत प्रतिरोध और विविध निर्देशों के प्रति उच्च संवेदनशीलता का प्रदर्शन किया।
और भी आश्चर्यजनक बात यह है कि LSLM ने द्वीप संचार क्षमता हासिल की है, जबकि मौजूदा सिस्टम पर इसका प्रभाव नगण्य है। इसका मतलब है कि इसे मौजूदा AI सिस्टम में बिना किसी रुकावट के समाहित किया जा सकता है, जिससे उपयोगकर्ता अनुभव में काफी सुधार होगा बिना पूरे ढांचे को फिर से बनाने की आवश्यकता के।
LSLM के अनुप्रयोग की संभावनाएं बेहद विस्तृत हैं। भविष्य में, चाहे वह घर हो, कार्यालय हो या सार्वजनिक स्थान, संवाद प्रणाली मानव के साथ अधिक स्वाभाविक तरीके से वास्तविक समय में संवाद कर सकेगी। यह न केवल हमारे मशीनों के साथ संवाद करने के तरीके को बदल देगा, बल्कि मानव- मशीन इंटरैक्शन के पूरे ढांचे को भी नया आकार दे सकता है।
तकनीकी प्रदर्शन में, शोध टीम ने पारंपरिक TTS और LSLM के प्रदर्शन की तुलना करके स्पष्ट और शोर वाले वातावरण में LSLM के लाभों को जीवंत रूप से प्रदर्शित किया। उन्होंने चित्रण के माध्यम से वॉयस लैंग्वेज मॉडल के एकल-मार्ग, अर्ध-द्विदिश और पूर्ण-द्विदिश के विकास प्रक्रिया को स्पष्ट किया, जिससे लोगों को इस तकनीकी उन्नति के महत्व को और बेहतर समझने में मदद मिली।
LSLM तकनीक के निरंतर परिपक्व होने के साथ, हमें उम्मीद है कि भविष्य का AI सहायक उपयोगकर्ताओं को और अधिक समृद्ध, प्रवाहमय और मानवकृत इंटरैक्शन अनुभव प्रदान करेगा। AI के साथ स्वाभाविक और लगातार संवाद करना, जल्दी ही दोस्तों के साथ बातचीत करने के समान आसान हो सकता है।
यह शोध न केवल शैक्षणिक रूप से महत्वपूर्ण है, बल्कि वॉयस इंटरैक्शन तकनीक के व्यावसायिक अनुप्रयोगों के लिए नई संभावनाओं के द्वार खोलता है। LSLM का आगमन, यह दर्शाता है कि हम एक नए AI इंटरैक्शन युग में प्रवेश कर रहे हैं, मानव- मशीन संवाद की सीमाएं越来越 धुंधली होती जा रही हैं, और प्रौद्योगिकी और मानवता का समन्वय एक नए उच्च स्तर पर पहुँच रहा है।
परियोजना का पता: https://top.aibase.com/tool/lslm