Alibaba Tongyi Lab verbessert sein Sprachgenerierungsmodell CosyVoice auf Version 2.0

Das Alibaba Tongyi Lab Sprachteam gibt die Veröffentlichung von CosyVoice 2.0 bekannt, einem Upgrade seines Open-Source Sprachgenerierungs-Großmodells. Dieses Upgrade markiert einen bedeutenden Fortschritt in Bezug auf Genauigkeit, Stabilität und Natürlichkeit der Sprachsynthese. CosyVoice 2.0 nutzt eine integrierte Offline- und Streaming-Modellierungstechnologie für die Sprachgenerierung und ermöglicht bidirektionale Streaming-Sprachsynthese. Die Latenzzeit für die erste Datenpaket-Synthese beträgt nur 150 ms, was die Reaktionsgeschwindigkeit der Sprachsynthese deutlich verbessert.

微信截图_20241216105354.png

In Bezug auf die Aussprachegenauigkeit weist CosyVoice 2.0 im Vergleich zur Vorgängerversion eine um 30 % bis 50 % geringere Fehlerrate auf. Im Seed-TTS-Testdatensatz (Hard-Testdatensatz) erreicht es die derzeit niedrigste Wortfehlerrate, insbesondere bei der Synthese von Zungenbrechern, Mehrdeutigkeiten und seltenen Wörtern. Darüber hinaus behält Version 2.0 die Stimmkonsistenz bei der Null-Shot-Sprachgenerierung und der mehrsprachigen Sprachsynthese bei, wobei die mehrsprachige Sprachsynthese im Vergleich zu Version 1.0 deutlich verbessert wurde.

CosyVoice 2.0 zeigt auch Verbesserungen in Bezug auf Rhythmus, Klangqualität und emotionale Übereinstimmung der synthetisierten Audiodaten. Die MOS-Bewertung stieg von 5,4 auf 5,53 und nähert sich der Bewertung eines bestimmten kommerziellen Sprachsynthese-Großmodells an. Version 2.0 unterstützt außerdem eine feinere Steuerung von Emotionen und Dialekten, bietet Benutzern eine größere Auswahl an Sprachen, darunter die wichtigsten Dialekte wie Kantonesisch, Sichuanesisch, Zhengzhou-Dialekt, Tianjin-Dialekt und Changsha-Dialekt, sowie Rollenspielfunktionen wie die Nachahmung von Robotern oder Peppa Wutz.

Das Upgrade von CosyVoice 2.0 verbessert nicht nur die Technologie und das Benutzererlebnis der Sprachsynthese, sondern fördert auch die Entwicklung der Open-Source-Community und ermutigt mehr Entwickler, sich an Innovationen und Anwendungen im Bereich der Sprachverarbeitung zu beteiligen.

GitHub-Repository: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) Hier finden Sie die neuesten Updates zu CosyVoice 2.
Online-Demo: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
Open-Source-Code: https://github.com/FunAudioLLM/CosyVoice
Open-Source-Modell: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

KI-Nachrichten und -Informationen

Alibaba Tongyi Lab verbessert sein Sprachgenerierungsmodell CosyVoice auf Version 2.0

AIbase基地