Das Alibaba Tongyi-Labor hat kürzlich das Open-Source-Projekt FunAudioLLM für die Audiogenerierung vorgestellt, mit dem Ziel, die natürliche Sprachinteraktion zwischen Menschen und großen Sprachmodellen (LLMs) zu verbessern. Das Projekt besteht aus zwei Kernmodellen: SenseVoice und CosyVoice.
CosyVoice konzentriert sich auf die natürliche Sprachgenerierung und bietet Unterstützung für mehrere Sprachen, sowie die Steuerung von Stimmlage und Emotionen. Es zeichnet sich durch hervorragende Leistungen in der mehrsprachigen Sprachgenerierung, der Zero-Shot-Sprachgenerierung, der sprachübergreifenden Sprachsynthese und der Befehlsausführung aus. Trainiert mit 150.000 Stunden Daten, unterstützt es fünf Sprachen (Chinesisch, Englisch, Japanisch, Kantonesisch und Koreanisch) und ermöglicht die schnelle Simulation von Stimmlagen sowie eine feingranulare Steuerung von Emotionen und Rhythmus.
SenseVoice hingegen konzentriert sich auf hochpräzise mehrsprachige Spracherkennung, Emotionserkennung und Audioereigniserkennung. Trainiert mit 400.000 Stunden Daten, unterstützt es über 50 Sprachen und liefert bessere Ergebnisse als das Whisper-Modell, insbesondere bei Chinesisch und Kantonesisch (über 50% Verbesserung). SenseVoice bietet auch Emotionserkennung, Audioereigniserkennung und eine schnelle Inferenzgeschwindigkeit.
FunAudioLLM unterstützt verschiedene Mensch-Maschine-Interaktionsanwendungen, wie mehrsprachige Übersetzung, emotionale Sprachdialoge, interaktive Podcasts und Hörbücher. Durch die Kombination von SenseVoice, LLMs und CosyVoice ermöglicht es nahtlose Sprach-zu-Sprach-Übersetzung, emotionale Chat-Anwendungen und interaktive Podcast-Radiosender.
Technisch basiert CosyVoice auf der quantisierten Sprachcodierung und ermöglicht eine natürliche und flüssige Sprachgenerierung, während SenseVoice umfassende Sprachverarbeitungsfunktionen bietet, darunter automatische Spracherkennung, Spracherkennung, Emotionserkennung und Audioereigniserkennung.
Das Open-Source-Modell und der Code wurden auf ModelScope und Huggingface veröffentlicht. Auf GitHub stehen außerdem Trainings-, Inferenz- und Feinabstimmungscodes zur Verfügung. CosyVoice und SenseVoice Modelle sind auf ModelScope online erlebbar, so dass Benutzer diese fortschrittlichen Sprachtechnologien direkt ausprobieren können.
Projekt-Adresse: https://github.com/FunAudioLLM