अलीबाबा टोंगयी प्रयोगशाला की वॉयस टीम ने घोषणा की है कि इसका ओपन-सोर्स वॉयस जनरेशन बड़ा मॉडल CosyVoice 2.0 संस्करण में अपग्रेड किया गया है। यह अपग्रेड वॉयस जनरेशन तकनीक में सटीकता, स्थिरता और प्राकृतिक अनुभव के मामले में महत्वपूर्ण प्रगति का प्रतीक है। CosyVoice 2.0 ने ऑफ़लाइन और स्ट्रीमिंग इंटीग्रेटेड मॉडलिंग की वॉयस जनरेशन बड़ी मॉडल तकनीक को अपनाकर द्विदिशीय स्ट्रीमिंग वॉयस सिंथेसिस को सक्षम किया है, जिसमें पहले पैकेज की सिंथेसिस विलंबता 150 मिलीसेकंड तक पहुंच सकती है, जिससे वॉयस सिंथेसिस की प्रतिक्रिया गति में उल्लेखनीय सुधार हुआ है।

微信截图_20241216105354.png

उच्चारण की सटीकता के मामले में, CosyVoice 2.0 ने पिछले संस्करण की तुलना में 30% से 50% तक की गलती की दर में कमी की है, और Seed-TTS परीक्षण सेट के कठिन परीक्षण सेट पर वर्तमान में सबसे कम शब्द गलती की दर प्राप्त की है, विशेष रूप से कठिन वाक्यांशों, बहु-ध्वनि वाले शब्दों और अनजान शब्दों के संयोजन में उत्कृष्ट प्रदर्शन किया है। इसके अलावा, 2.0 संस्करण ने शून्य नमूना वॉयस जनरेशन और क्रॉस-लैंग्वेज वॉयस सिंथेसिस में स्वर की स्थिरता बनाए रखी है, विशेष रूप से क्रॉस-लैंग्वेज वॉयस सिंथेसिस की क्षमता में 1.0 संस्करण की तुलना में स्पष्ट सुधार हुआ है।

CosyVoice 2.0 ने सिंथेसिस ऑडियो की लय, ध्वनि गुणवत्ता और भावना के मिलान में भी सुधार किया है, MOS मूल्यांकन स्कोर 5.4 से बढ़कर 5.53 हो गया है, जो किसी व्यावसायिक वॉयस सिंथेसिस बड़े मॉडल के स्कोर के करीब है। साथ ही, 2.0 संस्करण अधिक बारीक भावनात्मक नियंत्रण और बोली के उच्चारण नियंत्रण का समर्थन करता है, जिससे उपयोगकर्ताओं को अधिक विविध भाषा विकल्प मिलते हैं, जिसमें Cantonese, Sichuanese, Zhengzhou, Tianjin और Changsha जैसे प्रमुख बोलियाँ शामिल हैं, और पात्र अभिनय की विशेषताएँ जैसे कि रोबोट की नकल करना, छोटे सुअर पेपै की शैली में बोलना आदि।

CosyVoice 2.0 का अपग्रेड न केवल वॉयस सिंथेसिस की तकनीक और अनुभव को बढ़ाता है, बल्कि ओपन-सोर्स समुदाय के विकास को भी आगे बढ़ाता है, जिससे अधिक डेवलपर्स को वॉयस प्रोसेसिंग तकनीक में नवाचार और अनुप्रयोग में भाग लेने के लिए प्रोत्साहित किया जाता है।

  • GitHub रिपॉजिटरी: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) नवीनतम अपडेट के लिए CosyVoice 2 की जांच करें

  • ऑनलाइन अनुभव DEMO: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

  • ओपन-सोर्स कोड: https://github.com/FunAudioLLM/CosyVoice

  • ओपन-सोर्स मॉडल: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B