FunAudioLLM
Modèle de base pour la compréhension et la génération de la parole en interaction naturelle
Produit OrdinaireAutreReconnaissance vocaleSynthèse vocale
FunAudioLLM est un framework visant à améliorer l'interaction vocale naturelle entre les humains et les grands modèles de langage (LLM). Il intègre deux modèles innovants : SenseVoice, responsable de la reconnaissance vocale multilingue haute précision, de la reconnaissance des émotions et de la détection d'événements audio ; et CosyVoice, responsable de la génération vocale naturelle, prenant en charge le multilinguisme, le contrôle de la voix et des émotions. SenseVoice prend en charge plus de 50 langues avec une latence extrêmement faible ; CosyVoice excelle dans la génération vocale multilingue, la génération contextuelle zéro-shot, le clonage vocal interlinguistique et la capacité à suivre les instructions. Les modèles associés sont open source sur Modelscope et Huggingface, et le code d'entraînement, d'inférence et d'ajustement fin est disponible sur GitHub.
FunAudioLLM Dernière situation du trafic
Nombre total de visites mensuelles
8301
Taux de rebond
53.74%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:12