FunAudioLLM

Grundlegendes Modell für die natürliche Sprachinteraktion bei Sprachverständnis und -erzeugung

Normales ProduktAndereSpracherkennungSprachsynthese
FunAudioLLM ist ein Framework, das darauf abzielt, die natürliche Sprachinteraktion zwischen Menschen und großen Sprachmodellen (LLMs) zu verbessern. Es enthält zwei innovative Modelle: SenseVoice übernimmt die hochpräzise mehrsprachige Spracherkennung, Emotionserkennung und Audio-Ereigniserkennung; CosyVoice übernimmt die natürliche Spracherzeugung und unterstützt mehrere Sprachen, Stimmfarben und Emotionskontrolle. SenseVoice unterstützt über 50 Sprachen mit minimaler Latenz; CosyVoice ist spezialisiert auf mehrsprachige Spracherzeugung, Zero-Shot-Kontextgenerierung, sprachübergreifendes Sprachklonen und die Befolgung von Anweisungen. Die zugehörigen Modelle wurden auf ModelsCope und Hugging Face open-source veröffentlicht, und der entsprechende Trainings-, Inferenz- und Feinanpassungscode wurde auf GitHub bereitgestellt.
Website öffnen

FunAudioLLM Neueste Verkehrssituation

Monatliche Gesamtbesuche

8301

Absprungrate

53.74%

Durchschnittliche Seiten pro Besuch

1.2

Durchschnittliche Besuchsdauer

00:00:12

FunAudioLLM Besuchstrend

FunAudioLLM Geografische Verteilung der Besuche

FunAudioLLM Traffic-Quellen

FunAudioLLM Alternativen