FunAudioLLM
Modelo básico de compreensão e geração de fala com interação natural
Produto ComumOutrosReconhecimento de falaSíntese de fala
O FunAudioLLM é um framework que visa aprimorar a interação de voz natural entre humanos e Modelos de Linguagem Ampla (LLMs). Ele contém dois modelos inovadores: o SenseVoice, responsável por reconhecimento de fala multilíngue de alta precisão, reconhecimento de emoções e detecção de eventos de áudio; e o CosyVoice, responsável pela geração de fala natural, com suporte para múltiplos idiomas, tons de voz e controle de emoções. O SenseVoice suporta mais de 50 idiomas, com latência extremamente baixa; o CosyVoice se destaca na geração de fala multilíngue, geração de contexto de amostra zero, clonagem de voz entre idiomas e capacidade de seguir instruções. Os modelos relacionados foram disponibilizados em código aberto no Modelscope e Huggingface, e o código para treinamento, inferência e ajuste fino está disponível no GitHub.
FunAudioLLM Situação do Tráfego Mais Recente
Total de Visitas Mensais
8301
Taxa de Rejeição
53.74%
Média de Páginas por Visita
1.2
Duração Média da Visita
00:00:12