Das Alibaba DAMO Academy's Tongyi-Labor hat kürzlich die Open-Source-Veröffentlichung von ClearerVoice-Studio angekündigt, einer Sprachverarbeitungs-Technologie zur Verbesserung der Sprachqualität und Verständlichkeit. Mit der zunehmenden Verbreitung von Sprachtechnologien gewinnt die Sprachqualität immer mehr an Bedeutung, insbesondere bei Umgebungsgeräuschen, Hall und eingeschränkter Mikrofonaufnahme. Der Bedarf an Sprachverarbeitungs-Technologien steigt stetig.

ClearerVoice-Studio integriert Funktionen wie Sprachverbesserung, Sprachseparation und Audio-Video-Sprechererkennung. Durch die Kombination von komplexen Deep-Learning-Algorithmen verbessert es die Rauschunterdrückung und -separation deutlich. Die Technologie eliminiert Hintergrundgeräusche weitestgehend, bewahrt die Sprachklarheit und minimiert gleichzeitig Sprachverzerrungen.

Alibaba Cloud, Tongyi Qianwen

Zu den Kernmodellen und -algorithmen von ClearerVoice-Studio gehören das FRCRN-Modell, das 2022 beim IEEE/INTER Speech DNS Challenge den zweiten Platz belegte, sowie die MossFormer-Modellreihe, die bei der Sprachseparation hervorragende Leistungen erbrachte. Das 48kHz-Sprachverbesserungsmodell basierend auf MossFormer2 unterdrückt effektiv Geräusche und reduziert gleichzeitig die Sprachverzerrung erheblich.

Das Alibaba Tongyi-Labor möchte mit der ClearerVoice-Studio-Plattform Entwicklern, Forschern und Unternehmen leistungsstarke Tools zur Sprachverarbeitung zur Verfügung stellen und so innovative Anwendungen fördern. Benutzer können über ein Online-Demo eine verrauschte Sprachdatei hochladen und mit einem Klick verarbeiten lassen. Das Ergebnis kann online angehört oder heruntergeladen werden – für sofort spürbar klarere Klangqualität und hervorragende Rauschunterdrückung.

GitHub Repository:https://github.com/modelscope/ClearerVoice-Studio

Online-Demo:https://huggingface.co/spaces/alibabasglab/ClearVoice