FunAudioLLM
Grundlegendes Modell für die natürliche Sprachinteraktion bei Sprachverständnis und -erzeugung
Normales ProduktAndereSpracherkennungSprachsynthese
FunAudioLLM ist ein Framework, das darauf abzielt, die natürliche Sprachinteraktion zwischen Menschen und großen Sprachmodellen (LLMs) zu verbessern. Es enthält zwei innovative Modelle: SenseVoice übernimmt die hochpräzise mehrsprachige Spracherkennung, Emotionserkennung und Audio-Ereigniserkennung; CosyVoice übernimmt die natürliche Spracherzeugung und unterstützt mehrere Sprachen, Stimmfarben und Emotionskontrolle. SenseVoice unterstützt über 50 Sprachen mit minimaler Latenz; CosyVoice ist spezialisiert auf mehrsprachige Spracherzeugung, Zero-Shot-Kontextgenerierung, sprachübergreifendes Sprachklonen und die Befolgung von Anweisungen. Die zugehörigen Modelle wurden auf ModelsCope und Hugging Face open-source veröffentlicht, und der entsprechende Trainings-, Inferenz- und Feinanpassungscode wurde auf GitHub bereitgestellt.
FunAudioLLM Neueste Verkehrssituation
Monatliche Gesamtbesuche
8301
Absprungrate
53.74%
Durchschnittliche Seiten pro Besuch
1.2
Durchschnittliche Besuchsdauer
00:00:12