वॉयस असिस्टेंट धीरे-धीरे हमारे जीवन का एक अभिन्न अंग बनते जा रहे हैं, लेकिन मौजूदा डिजिटल वॉयस असिस्टेंट यूज़र्स के साथ बातचीत करते समय अक्सर नीरस और भावनाहीन लगते हैं, उनमें मानवीय तत्वों की कमी होती है। इसे देखते हुए, सेसम टीम इस समस्या को हल करने के लिए काम कर रही है और एक नए तरह के "वॉयस एक्ज़िस्टेंस" को लागू करने का प्रयास कर रही है, जिससे डिजिटल असिस्टेंट बातचीत में अधिक वास्तविक, समझने योग्य और महत्वपूर्ण बन सकें।
सेसम का मुख्य लक्ष्य एक ऐसा डिजिटल साथी बनाना है जो केवल अनुरोधों को संसाधित करने का उपकरण न हो, बल्कि वास्तविक बातचीत करने वाला साथी भी हो। ये डिजिटल साथी यूज़र्स के साथ बातचीत करके विश्वास और आत्मविश्वास स्थापित करना चाहते हैं, जिससे यूज़र्स को अपने दैनिक जीवन में अधिक समृद्ध और गहन बातचीत का अनुभव हो सके। इसके लिए, सेसम टीम भावनात्मक बुद्धिमत्ता, बातचीत की गतिशीलता, संदर्भ जागरूकता और सुसंगत व्यक्तित्व जैसे कई महत्वपूर्ण घटकों पर ध्यान केंद्रित कर रही है।
भावनात्मक बुद्धिमत्ता वॉयस असिस्टेंट को यूज़र्स की भावनात्मक स्थिति को समझने और उसका जवाब देने की क्षमता है। यह केवल वॉयस कमांड को समझने तक ही सीमित नहीं है, बल्कि यह वॉयस में भावनात्मक बदलावों को समझने और अधिक उपयुक्त प्रतिक्रिया देने में सक्षम होना चाहिए। दूसरा, बातचीत की गतिशीलता इस बात पर जोर देती है कि बातचीत के दौरान वॉयस असिस्टेंट में प्राकृतिक लय होनी चाहिए, जिसमें समय पर रुकना, उचित स्वर में जोर देना और बीच में बोलना शामिल है, जिससे बातचीत अधिक सहज और प्राकृतिक हो सके।
इसके अलावा, संदर्भ जागरूकता भी बेहद महत्वपूर्ण है। इसके लिए वॉयस असिस्टेंट को बातचीत की पृष्ठभूमि और इतिहास के अनुसार, वर्तमान स्थिति के अनुरूप स्वर और शैली को बदलना चाहिए। इस क्षमता से डिजिटल असिस्टेंट विभिन्न अवसरों पर उपयुक्त दिखाई दे सकते हैं, जिससे यूज़र्स की संतुष्टि बढ़ सकती है। अंत में, सुसंगत व्यक्तित्व का मतलब है कि सभी तरह की बातचीत में वॉयस असिस्टेंट को अपेक्षाकृत सुसंगत व्यक्तित्व और शैली बनाए रखनी चाहिए, जिससे यूज़र्स का विश्वास बढ़े।
हालांकि, "वॉयस एक्ज़िस्टेंस" के लक्ष्य को प्राप्त करना आसान नहीं है। सेसम टीम ने व्यक्तित्व, स्मृति, अभिव्यक्ति और उपयुक्तता जैसे कई पहलुओं में धीरे-धीरे प्रगति की है। हाल ही में, टीम ने बातचीत वॉयस जेनरेशन के कुछ प्रयोगात्मक परिणाम दिखाए हैं, खासकर मित्रता और अभिव्यक्ति में सुधार किया गया है, जिससे इसके तरीके की क्षमता पूरी तरह से प्रदर्शित होती है।
तकनीकी स्तर पर, सेसम टीम ने पारंपरिक टेक्स्ट-टू-स्पीच (TTS) मॉडल की कमियों को देखते हुए, "कन्वर्सेशनल स्पीच मॉडल" (CSM) नामक एक नया तरीका प्रस्तावित किया है। यह तरीका ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, जिसका उद्देश्य अधिक प्राकृतिक और सुसंगत वॉयस जेनरेशन प्राप्त करना है। CSM न केवल टेक्स्ट और ऑडियो के मल्टीमॉडल लर्निंग को संसाधित करता है, बल्कि बातचीत के इतिहास के अनुसार आउटपुट को भी समायोजित कर सकता है, जिससे पारंपरिक मॉडल में संदर्भ समझ की कमी दूर हो जाती है।
मॉडल के प्रभाव की पुष्टि करने के लिए, सेसम टीम ने प्रशिक्षण के लिए बड़ी मात्रा में सार्वजनिक ऑडियो डेटा का उपयोग किया है, और प्रशिक्षण नमूने तैयार करने के लिए ट्रांसक्रिप्शन और सेगमेंटेशन जैसे तरीकों का उपयोग किया है। उन्होंने विभिन्न आकार के मॉडल प्रशिक्षित किए हैं और वस्तुनिष्ठ और व्यक्तिनिष्ठ मूल्यांकन संकेतकों में अच्छा प्रदर्शन किया है, हालाँकि वर्तमान में मॉडल की प्राकृतिकता और वॉयस अनुकूलन मानवीय स्तर के करीब हैं, लेकिन विशिष्ट बातचीत के संदर्भ में अभी भी सुधार की आवश्यकता है।
आधिकारिक तौर पर दिए गए नमूनों से, इसके द्वारा बनाए गए कार्यों में AI का कोई अंश नहीं सुनाई देता है, यह बेहद वास्तविक लगता है।
सेसम टीम अपनी शोध उपलब्धियों को ओपन सोर्स करने की योजना बना रही है, ताकि समुदाय प्रयोग और सुधार में भाग ले सके। यह कदम न केवल बातचीत AI के विकास में तेजी लाने में मदद करेगा, बल्कि मॉडल के आकार और भाषा समर्थन का विस्तार करके अधिक एप्लिकेशन परिदृश्यों को कवर करने की भी उम्मीद है। इसके अलावा, टीम यह भी पता लगाने की योजना बना रही है कि प्री-ट्रेन्ड भाषा मॉडल का उपयोग करके मल्टीमॉडल मॉडल के निर्माण की नींव कैसे बनाई जाए।
प्रोजेक्ट डेमो:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
मुख्य बातें:
🌟 सेसम टीम "वॉयस एक्ज़िस्टेंस" को लागू करने के लिए काम कर रही है, जिससे डिजिटल असिस्टेंट न केवल आदेशों का पालन कर सकें, बल्कि वास्तविक बातचीत भी कर सकें।
🔧 "कन्वर्सेशनल स्पीच मॉडल" (CSM) के माध्यम से, टीम ने संदर्भ समझ और वॉयस जेनरेशन में नई सफलता प्राप्त की है।
🌐 टीम अपनी शोध उपलब्धियों को ओपन सोर्स करने और भाषा समर्थन का विस्तार करने की योजना बना रही है, ताकि बातचीत AI के आगे विकास को बढ़ावा दिया जा सके।