सेसम ने CSM मॉडल जारी किया: वास्तविक समय भावना अनुकूलन AI भाषण संश्लेषण एक नई ऊँचाई पर

AIbase基地

द्वारा प्रकाशितAI समाचार · 4 मिनट पढ़ें · Mar 14, 2025

13 मार्च को, सेसम कंपनी ने अपने नवीनतम वॉयस सिंथेसिस मॉडल CSM को लॉन्च किया, जिसने उद्योग में ध्यान आकर्षित किया। आधिकारिक जानकारी के अनुसार, CSM एक एंड-टू-एंड ट्रांसफॉर्मर-आधारित मल्टीमॉडल लर्निंग आर्किटेक्चर का उपयोग करता है, जो संदर्भ जानकारी को समझ सकता है और प्राकृतिक और भावनात्मक रूप से समृद्ध आवाज उत्पन्न कर सकता है, जिसकी आवाज असली इंसान की तरह लगती है, जो आश्चर्यजनक है।

यह मॉडल रीयल-टाइम वॉयस जनरेशन का समर्थन करता है, टेक्स्ट और ऑडियो इनपुट को संभाल सकता है, और उपयोगकर्ता स्वर, स्वर, ताल और भावनाओं जैसी विशेषताओं को नियंत्रित करने के लिए पैरामीटर को समायोजित कर सकते हैं, उच्च स्तर की लचीलापन प्रदर्शित करते हैं।

CSM को AI वॉयस टेक्नोलॉजी में एक महत्वपूर्ण सफलता माना जाता है। इसकी वॉयस प्राकृतिकता बहुत अधिक है, यहाँ तक कि "यह पहचानना असंभव है कि यह कृत्रिम रूप से संश्लेषित है या असली इंसान की आवाज है"। कुछ उपयोगकर्ताओं ने CSM के लगभग बिना देरी के प्रदर्शन को दिखाते हुए वीडियो रिकॉर्ड किए हैं, इसे "अनुभव किया गया सबसे शक्तिशाली मॉडल" कहा है। इससे पहले, सेसम ने CSM-1B का एक छोटा संस्करण ओपन सोर्स किया था, जो बहु-चरण संवादों में सुसंगत आवाज उत्पन्न करने का समर्थन करता है, और व्यापक प्रशंसा प्राप्त की थी।

वर्तमान में, CSM मुख्य रूप से अंग्रेजी प्रशिक्षण के लिए है, और उत्कृष्ट प्रदर्शन करता है, लेकिन बहु-भाषा समर्थन में अभी भी सीमाएँ हैं। वर्तमान में यह चीनी भाषा का समर्थन नहीं करता है, लेकिन भविष्य में विस्तार की उम्मीद है।

सेसम ने कहा कि वह कुछ शोध परिणामों को ओपन सोर्स करेगा, और समुदाय के डेवलपर्स पहले ही GitHub पर इसकी क्षमता पर चर्चा कर रहे हैं। CSM न केवल संवादात्मक AI के लिए उपयुक्त है, बल्कि शिक्षा, मनोरंजन आदि क्षेत्रों में वॉयस इंटरैक्शन अनुभव में क्रांति ला सकता है। उद्योग के विशेषज्ञों का मानना है कि CSM AI वॉयस असिस्टेंट के मानकों को फिर से परिभाषित कर सकता है और अधिक प्राकृतिक मानव-मशीन संवाद ला सकता है।

सेसम ने सीएसएम वॉयस मॉडल जारी किया: डरावनी घाटी को पार करते हुए, यथार्थवाद ने दुनिया भर में आश्चर्यचकित किया

सेसम कंपनी द्वारा हाल ही में लॉन्च किया गया वॉयस सिंथेसिस मॉडल, "कन्वर्सेशनल स्पीच मॉडल" (संक्षेप में सीएसएम) ने हाल ही में एक्स प्लेटफॉर्म पर काफी चर्चा बटोरी है, जिसे "मानव जैसे बोलने वाले वॉयस मॉडल" के रूप में सराहा गया है। इस मॉडल ने अपनी अद्भुत प्राकृतिकता और भावनात्मक अभिव्यक्ति क्षमता से न केवल उपयोगकर्ताओं को "इसके और मानव के बीच के अंतर" को पहचानने में असमर्थ बना दिया है, बल्कि यह भी दावा किया है कि इसने वॉयस टेक्नोलॉजी के "अजीब घाटी प्रभाव" को सफलतापूर्वक पार कर लिया है। प्रदर्शन वीडियो और उपयोगकर्ता प्रतिक्रिया के प्रसार के साथ, सीएसएम तेजी से एआई वॉयस टेक्नोलॉजी का...

सेसम ने लॉन्च किया अत्यंत यथार्थवादी AI वॉयस उत्पाद: लगभग कोई AI अनुभूति नहीं

वॉयस असिस्टेंट धीरे-धीरे हमारे जीवन का एक अभिन्न अंग बनते जा रहे हैं, और मौजूदा डिजिटल वॉयस असिस्टेंट उपयोगकर्ताओं के साथ बातचीत करते समय अक्सर नीरस और भावनाहीन लगते हैं, मानवीय तत्वों की कमी होती है। इसे देखते हुए, सेसम टीम इस समस्या को हल करने के लिए काम कर रही है, एक नए तरह के "वॉयस एक्ज़िस्टेंस" कॉन्सेप्ट को लागू करने का प्रयास कर रही है, जिससे डिजिटल असिस्टेंट बातचीत में अधिक यथार्थवादी, समझदार और मूल्यवान बन सकें। सेसम का मुख्य लक्ष्य एक ऐसा डिजिटल साथी बनाना है जो केवल अनुरोधों को संसाधित करने का उपकरण न हो, बल्कि वास्तविक बातचीत करने वाला साथी भी हो। ये डिजिटल साथी...

Sakana AI का Transformer² मॉडल LLM सीमाओं को पार करता है, गतिशील अनुमान को सफल बनाता है

Sakana AI एक ऐसी人工智能 अनुसंधान प्रयोगशाला है जो प्राकृतिक प्रेरित एल्गोरिदम पर केंद्रित है, हाल ही में इसने एक नवाचारी अनुकूली भाषा मॉडल, जिसे Transformer² (Transformer-squared) कहा जाता है, लॉन्च किया है। यह मॉडल महंगे माइक्रोट्यूनिंग के बिना अनुमान प्रक्रिया में नई कार्यों के लिए गतिशील रूप से सीखने और खुद को अनुकूलित करने में सक्षम है, जो बड़े भाषा मॉडल (LLM) तकनीकी विकास में एक महत्वपूर्ण कदम का प्रतीक है। Transformer² की मुख्य नवाचार इसकी अद्वितीय दो कदमों वाली गतिशील वजन समायोजन तंत्र है।

नया एआई मॉडल Transformer²: ऑक्टोपस की तरह लचीला, गतिशील रूप से वजन समायोजित करना, पर्यावरण के अनुकूल होना

पारंपरिक बड़े भाषा मॉडल (LLM) के सूक्ष्म समायोजन विधियाँ आम तौर पर संसाधन-गहन होती हैं, और विविध कार्यों को संभालने में स्थिरता दिखाती हैं। इन चुनौतियों का समाधान करने के लिए, साकाना एआई ने एक नए प्रकार के अनुकूली ढांचे का परिचय दिया है, जिसका नाम Transformer² है। Transformer² तर्क के दौरान LLM के वजन को वास्तविक समय में समायोजित करने में सक्षम है, जिससे यह अज्ञात कार्यों के अनुकूलन में ऑक्टोपस की तरह लचीला हो जाता है। Transformer² का मूल एक दो-चरणीय तंत्र में है: पहले चरण में, एक शेड्यूलिंग सिस्टम

AI समाचार

सेसम ने CSM मॉडल जारी किया: वास्तविक समय भावना अनुकूलन AI भाषण संश्लेषण एक नई ऊँचाई पर

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

सेसम ने सीएसएम वॉयस मॉडल जारी किया: डरावनी घाटी को पार करते हुए, यथार्थवाद ने दुनिया भर में आश्चर्यचकित किया

सेसम ने लॉन्च किया अत्यंत यथार्थवादी AI वॉयस उत्पाद: लगभग कोई AI अनुभूति नहीं

Sakana AI का Transformer² मॉडल LLM सीमाओं को पार करता है, गतिशील अनुमान को सफल बनाता है

नया एआई मॉडल Transformer²: ऑक्टोपस की तरह लचीला, गतिशील रूप से वजन समायोजित करना, पर्यावरण के अनुकूल होना