CosyVoice 2

विस्तार योग्य स्ट्रीमिंग वॉयस सिंथेसिस तकनीक, बड़े भाषा मॉडल के साथ संयुक्त।

सामान्य उत्पादउत्पादकताभाषण संश्लेषणस्ट्रीमिंग
CosyVoice 2 अलीबाबा समूह के SpeechLab@Tongyi टीम द्वारा विकसित एक वॉयस सिंथेसिस मॉडल है, जो पर्यवेक्षित असतत भाषण टोकन पर आधारित है, और दो लोकप्रिय जनरेटिव मॉडल को जोड़ता है: भाषा मॉडल (LM) और स्ट्रीम मैचिंग, उच्च प्राकृतिकता, सामग्री संगति और वक्ता समानता के साथ भाषण संश्लेषण प्राप्त करता है। यह मॉडल बहु-मोडल बड़े भाषा मॉडल (LLM) में महत्वपूर्ण अनुप्रयोग रखता है, खासकर इंटरैक्टिव अनुभवों में, जहाँ प्रतिक्रिया विलंब और रीयल-टाइम कारक भाषण संश्लेषण के लिए महत्वपूर्ण हैं। CosyVoice 2 सीमित स्केलर मात्रा निर्धारण के माध्यम से वॉयस टोकन के कोडबुक उपयोग दर में सुधार करता है, टेक्स्ट-टू-स्पीच भाषा मॉडल आर्किटेक्चर को सरल करता है, और विभिन्न संश्लेषण परिदृश्यों के अनुकूल होने के लिए ब्लॉक-जागरूक कारण स्ट्रीम मिलान मॉडल डिज़ाइन करता है। इसे बड़े पैमाने पर बहुभाषी डेटासेट पर प्रशिक्षित किया गया है, जो मानव-समान संश्लेषण गुणवत्ता प्राप्त करता है, और अत्यंत कम प्रतिक्रिया विलंब और रीयल-टाइम क्षमता प्रदान करता है।
वेबसाइट खोलें

CosyVoice 2 नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

63960

बाउंस दर

57.97%

प्रति विज़िट औसत पृष्ठ

1.4

औसत विज़िट अवधि

00:00:54

CosyVoice 2 विज़िट प्रवृत्ति

CosyVoice 2 विज़िट भौगोलिक वितरण

CosyVoice 2 ट्रैफ़िक स्रोत

CosyVoice 2 विकल्प