FunAudioLLM

Modelo base para la comprensión y generación de voz con interacción natural

Producto ComúnOtrosReconocimiento de vozSíntesis de voz
FunAudioLLM es un framework diseñado para mejorar la interacción de voz natural entre humanos y modelos de lenguaje grandes (Large Language Models, LLMs). Incluye dos modelos innovadores: SenseVoice, responsable del reconocimiento de voz multilingüe de alta precisión, la detección de emociones y la detección de eventos de audio; y CosyVoice, encargado de la generación de voz natural, con soporte multilingüe, control de timbre y emociones. SenseVoice admite más de 50 idiomas con una latencia extremadamente baja; CosyVoice destaca en la generación de voz multilingüe, la generación de contexto de muestra cero, la clonación de voz entre idiomas y la capacidad de seguir instrucciones. Los modelos relacionados están disponibles en código abierto en Modelscope y Hugging Face, y se ha publicado el código correspondiente para entrenamiento, inferencia y ajuste fino en GitHub.
Abrir sitio web

FunAudioLLM Situación del tráfico más reciente

Total de visitas mensuales

8301

Tasa de rebote

53.74%

Páginas promedio por visita

1.2

Duración promedio de la visita

00:00:12

FunAudioLLM Tendencia de visitas

FunAudioLLM Distribución geográfica de las visitas

FunAudioLLM Fuentes de tráfico

FunAudioLLM Alternativas