CosyVoice 2
विस्तार योग्य स्ट्रीमिंग वॉयस सिंथेसिस तकनीक, बड़े भाषा मॉडल के साथ संयुक्त।
सामान्य उत्पादउत्पादकताभाषण संश्लेषणस्ट्रीमिंग
CosyVoice 2 अलीबाबा समूह के SpeechLab@Tongyi टीम द्वारा विकसित एक वॉयस सिंथेसिस मॉडल है, जो पर्यवेक्षित असतत भाषण टोकन पर आधारित है, और दो लोकप्रिय जनरेटिव मॉडल को जोड़ता है: भाषा मॉडल (LM) और स्ट्रीम मैचिंग, उच्च प्राकृतिकता, सामग्री संगति और वक्ता समानता के साथ भाषण संश्लेषण प्राप्त करता है। यह मॉडल बहु-मोडल बड़े भाषा मॉडल (LLM) में महत्वपूर्ण अनुप्रयोग रखता है, खासकर इंटरैक्टिव अनुभवों में, जहाँ प्रतिक्रिया विलंब और रीयल-टाइम कारक भाषण संश्लेषण के लिए महत्वपूर्ण हैं। CosyVoice 2 सीमित स्केलर मात्रा निर्धारण के माध्यम से वॉयस टोकन के कोडबुक उपयोग दर में सुधार करता है, टेक्स्ट-टू-स्पीच भाषा मॉडल आर्किटेक्चर को सरल करता है, और विभिन्न संश्लेषण परिदृश्यों के अनुकूल होने के लिए ब्लॉक-जागरूक कारण स्ट्रीम मिलान मॉडल डिज़ाइन करता है। इसे बड़े पैमाने पर बहुभाषी डेटासेट पर प्रशिक्षित किया गया है, जो मानव-समान संश्लेषण गुणवत्ता प्राप्त करता है, और अत्यंत कम प्रतिक्रिया विलंब और रीयल-टाइम क्षमता प्रदान करता है।
CosyVoice 2 नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
63960
बाउंस दर
57.97%
प्रति विज़िट औसत पृष्ठ
1.4
औसत विज़िट अवधि
00:00:54