Sesame कंपनी द्वारा हाल ही में लॉन्च किया गया वॉयस सिंथेसिस मॉडल, "कन्वर्सेशनल स्पीच मॉडल" (संक्षेप में CSM), हाल ही में X प्लेटफ़ॉर्म पर चर्चा का विषय बना हुआ है, जिसे "वास्तविक व्यक्ति की तरह बोलने वाला वॉयस मॉडल" कहा जा रहा है। इस मॉडल की अद्भुत प्राकृतिकता और भावनात्मक अभिव्यक्ति ने न केवल उपयोगकर्ताओं को "इसके और मानव के बीच अंतर करने में असमर्थ" बना दिया है, बल्कि यह भी दावा किया गया है कि इसने वॉयस टेक्नोलॉजी के "अनकैनी वैली इफ़ेक्ट" को पार कर लिया है। डेमो वीडियो और उपयोगकर्ता प्रतिक्रिया के प्रसार के साथ, CSM तेज़ी से AI वॉयस टेक्नोलॉजी का नया मानक बनता जा रहा है।

image.png

"अनकैनी वैली" को पार करना: CSM का तकनीकी सफलता

"अनकैनी वैली इफ़ेक्ट" का मतलब है कि जब कृत्रिम रूप से निर्मित आवाज़ या छवि वास्तविक मानव के करीब होती है, लेकिन फिर भी सूक्ष्म अंतर होता है, तो यह मनुष्यों में असुविधा पैदा कर सकती है। Sesame ने अपने CSM मॉडल के माध्यम से इस चुनौती का सामना किया है। X उपयोगकर्ता @imxiaohu ने 1 मार्च को एक पोस्ट में लिखा: "दोस्तों, यह नया वॉयस मॉडल बहुत शानदार है, इसमें अंतर करना असंभव है!" उन्होंने बताया कि CSM व्यक्तित्व, स्मृति, अभिव्यक्ति क्षमता और संदर्भ की उपयुक्तता के मामले में उत्कृष्ट प्रदर्शन करता है, और पारंपरिक वॉयस असिस्टेंट की यांत्रिकता को लगभग समाप्त कर देता है।

Sesame टीम ने अपने आधिकारिक शोध लेख में कहा है कि CSM का लक्ष्य "वॉयस प्रेजेंस" प्राप्त करना है - वॉयस इंटरैक्शन को न केवल वास्तविक और विश्वसनीय बनाना, बल्कि इसे समझा और महत्व दिया जाना भी सुनिश्चित करना। यह सफलता इसके मुख्य घटकों के कारण संभव हुई है: भावनात्मक बुद्धिमत्ता (भावनाओं को समझना और उनका जवाब देना), संदर्भ स्मृति (संवाद के इतिहास के आधार पर आउटपुट को समायोजित करना) और उच्च-निष्ठा वॉयस जेनरेशन तकनीक। डेमो में, CSM ने लंबी बातचीत में प्राकृतिक स्वर और समृद्ध भावनाओं को प्रदर्शित किया, और उपयोगकर्ता बिना जाने AI को पहचान नहीं पाए।

image.png

यथार्थवादी उपयोगकर्ता अनुभव

X प्लेटफ़ॉर्म पर उपयोगकर्ता प्रतिक्रिया ने CSM के अद्भुत प्रदर्शन की पुष्टि की है। @imxiaohu ने अपनी पोस्ट में कई तरह के दृश्यों और परिस्थितियों को शामिल करते हुए एक लंबी बातचीत का डेमो साझा किया, और कहा: "स्वर, भावनाएँ और अभिव्यक्ति बहुत ही मानवीय हैं, हहाहा।" उन्होंने बताया कि बिना किसी संकेत के, इस मॉडल का आउटपुट असली और नकली के बीच अंतर करना मुश्किल बना देता है। एक अन्य उपयोगकर्ता @leeoxiang ने 1 मार्च को कहा कि उन्होंने CSM का उपयोग करके आधे घंटे तक अंग्रेजी बोलने का अभ्यास किया, और लगभग कोई देरी महसूस नहीं हुई, और कहा कि "इसका बोलचाल बहुत अच्छा है, इसमें थोड़ा सा लहज़ा भी है", और इसकी सक्रिय बातचीत क्षमता भी प्रभावशाली है।

समुदाय का उत्साह केवल प्रशंसा तक ही सीमित नहीं है। कई उपयोगकर्ताओं ने बताया कि CSM की बातचीत की सुगमता और भावनात्मक अभिव्यक्ति मौजूदा मुख्यधारा के मॉडल, जैसे OpenAI का ChatGPT वॉयस मोड, से आगे निकल गई है। @op7418 ने 28 फरवरी को शोधकर्ताओं को Sesame के तकनीकी लेखों पर ध्यान देने की सलाह दी, और इसकी अनूठी वॉयस प्रामाणिकता मूल्यांकन प्रणाली पर ज़ोर दिया, जो इस मॉडल की तकनीकी सटीकता को दर्शाता है।

सुधार की गुंजाइश अभी भी है: Sesame की भविष्य की योजनाएँ

हालांकि CSM का प्रदर्शन प्रभावशाली है, Sesame ने आधिकारिक तौर पर कहा है कि यह अंतिम नहीं है। @imxiaohu ने आधिकारिक बयान का हवाला देते हुए कहा, "यह अभी तक परिपूर्ण नहीं है, इसमें सुधार की बहुत गुंजाइश है!" वर्तमान में, CSM अंग्रेज़ी सहित कई भाषाओं का समर्थन करता है, लेकिन जैसा कि @leeoxiang ने बताया, यह अभी तक चीनी भाषा का समर्थन नहीं करता है। इसके अलावा, कुछ उपयोगकर्ताओं ने परीक्षण में पाया कि विशिष्ट संदर्भों (जैसे विदेशी भाषा में स्विच करना या संगीत गाना) में मॉडल के प्रदर्शन में अभी भी सुधार की गुंजाइश है।

Sesame ने कुछ शोध परिणामों को ओपन सोर्स करने का वादा किया है, इसके GitHub पेज (SesameAILabs/csm) से पता चलता है कि CSM Apache2.0 लाइसेंस का उपयोग करेगा। इस कदम से डेवलपर समुदाय में उम्मीदें बढ़ी हैं, कई लोग इसके आर्किटेक्चर के गहन अध्ययन के माध्यम से वॉयस AI के विकास को आगे बढ़ाने की उम्मीद करते हैं।

उद्योग पर प्रभाव और दृष्टिकोण

CSM का आगमन न केवल "अनकैनी वैली इफ़ेक्ट" के लिए तकनीकी प्रतिक्रिया है, बल्कि इसने AI वॉयस इंटरैक्शन के लिए एक नया मानक भी स्थापित किया है। Grok, Claude जैसे मॉडल की तुलना में, CSM वास्तविक समय, कम विलंबता और भावनात्मक अभिव्यक्ति में बेहतर है। X उपयोगकर्ता @AbleGPT ने 2 मार्च को कहा: "यदि आप AI वॉयस पर शोध कर रहे हैं, तो इस लेख को देखने की सलाह दी जाती है।" यह CSM के तकनीकी क्षेत्र पर प्रभाव को दर्शाता है।

Sesame द्वारा भाषा समर्थन का विस्तार करने और मॉडल को अनुकूलित करने की योजना के साथ, CSM शिक्षा, मनोरंजन और वर्चुअल साथी जैसे क्षेत्रों में सफल हो सकता है। X पर मिली जबरदस्त प्रतिक्रिया को देखते हुए, यह "दोस्तों को भी शानदार लगने वाला" वॉयस मॉडल, अपनी यथार्थवादी बातचीत क्षमता के साथ मानव और AI के बीच बातचीत के तरीके को फिर से परिभाषित कर रहा है। भविष्य में, क्या यह "अनकैनी वैली" को पूरी तरह से खत्म कर सकता है और एक सच्चा "डिजिटल साथी" बन सकता है? इसका जवाब शायद Sesame के अगले पुनरावृत्ति में होगा।

ट्रायल एड्रेस: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo