FunAudioLLM
Modelo base para la comprensión y generación de voz con interacción natural
Producto ComúnOtrosReconocimiento de vozSíntesis de voz
FunAudioLLM es un framework diseñado para mejorar la interacción de voz natural entre humanos y modelos de lenguaje grandes (Large Language Models, LLMs). Incluye dos modelos innovadores: SenseVoice, responsable del reconocimiento de voz multilingüe de alta precisión, la detección de emociones y la detección de eventos de audio; y CosyVoice, encargado de la generación de voz natural, con soporte multilingüe, control de timbre y emociones. SenseVoice admite más de 50 idiomas con una latencia extremadamente baja; CosyVoice destaca en la generación de voz multilingüe, la generación de contexto de muestra cero, la clonación de voz entre idiomas y la capacidad de seguir instrucciones. Los modelos relacionados están disponibles en código abierto en Modelscope y Hugging Face, y se ha publicado el código correspondiente para entrenamiento, inferencia y ajuste fino en GitHub.
FunAudioLLM Situación del tráfico más reciente
Total de visitas mensuales
8301
Tasa de rebote
53.74%
Páginas promedio por visita
1.2
Duración promedio de la visita
00:00:12