अलीबाबा टोंगयी प्रयोगशाला की वॉयस टीम ने घोषणा की है कि इसका ओपन-सोर्स वॉयस जनरेशन बड़ा मॉडल CosyVoice 2.0 संस्करण में अपग्रेड किया गया है। यह अपग्रेड वॉयस जनरेशन तकनीक में सटीकता, स्थिरता और प्राकृतिक अनुभव के मामले में महत्वपूर्ण प्रगति का प्रतीक है। CosyVoice 2.0 ने ऑफ़लाइन और स्ट्रीमिंग इंटीग्रेटेड मॉडलिंग की वॉयस जनरेशन बड़ी मॉडल तकनीक को अपनाकर द्विदिशीय स्ट्रीमिंग वॉयस सिंथेसिस को सक्षम किया है, जिसमें पहले पैकेज की सिंथेसिस विलंबता 150 मिलीसेकंड तक पहुंच सकती है, जिससे वॉयस सिंथेसिस की प्रतिक्रिया गति में उल्लेखनीय सुधार हुआ है।
उच्चारण की सटीकता के मामले में, CosyVoice 2.0 ने पिछले संस्करण की तुलना में 30% से 50% तक की गलती की दर में कमी की है, और Seed-TTS परीक्षण सेट के कठिन परीक्षण सेट पर वर्तमान में सबसे कम शब्द गलती की दर प्राप्त की है, विशेष रूप से कठिन वाक्यांशों, बहु-ध्वनि वाले शब्दों और अनजान शब्दों के संयोजन में उत्कृष्ट प्रदर्शन किया है। इसके अलावा, 2.0 संस्करण ने शून्य नमूना वॉयस जनरेशन और क्रॉस-लैंग्वेज वॉयस सिंथेसिस में स्वर की स्थिरता बनाए रखी है, विशेष रूप से क्रॉस-लैंग्वेज वॉयस सिंथेसिस की क्षमता में 1.0 संस्करण की तुलना में स्पष्ट सुधार हुआ है।
CosyVoice 2.0 ने सिंथेसिस ऑडियो की लय, ध्वनि गुणवत्ता और भावना के मिलान में भी सुधार किया है, MOS मूल्यांकन स्कोर 5.4 से बढ़कर 5.53 हो गया है, जो किसी व्यावसायिक वॉयस सिंथेसिस बड़े मॉडल के स्कोर के करीब है। साथ ही, 2.0 संस्करण अधिक बारीक भावनात्मक नियंत्रण और बोली के उच्चारण नियंत्रण का समर्थन करता है, जिससे उपयोगकर्ताओं को अधिक विविध भाषा विकल्प मिलते हैं, जिसमें Cantonese, Sichuanese, Zhengzhou, Tianjin और Changsha जैसे प्रमुख बोलियाँ शामिल हैं, और पात्र अभिनय की विशेषताएँ जैसे कि रोबोट की नकल करना, छोटे सुअर पेपै की शैली में बोलना आदि।
CosyVoice 2.0 का अपग्रेड न केवल वॉयस सिंथेसिस की तकनीक और अनुभव को बढ़ाता है, बल्कि ओपन-सोर्स समुदाय के विकास को भी आगे बढ़ाता है, जिससे अधिक डेवलपर्स को वॉयस प्रोसेसिंग तकनीक में नवाचार और अनुप्रयोग में भाग लेने के लिए प्रोत्साहित किया जाता है।
GitHub रिपॉजिटरी: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) नवीनतम अपडेट के लिए CosyVoice 2 की जांच करें
ऑनलाइन अनुभव DEMO: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
ओपन-सोर्स कोड: https://github.com/FunAudioLLM/CosyVoice
ओपन-सोर्स मॉडल: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B