FunAudioLLM

Modelo básico de compreensão e geração de fala com interação natural

Produto ComumOutrosReconhecimento de falaSíntese de fala
O FunAudioLLM é um framework que visa aprimorar a interação de voz natural entre humanos e Modelos de Linguagem Ampla (LLMs). Ele contém dois modelos inovadores: o SenseVoice, responsável por reconhecimento de fala multilíngue de alta precisão, reconhecimento de emoções e detecção de eventos de áudio; e o CosyVoice, responsável pela geração de fala natural, com suporte para múltiplos idiomas, tons de voz e controle de emoções. O SenseVoice suporta mais de 50 idiomas, com latência extremamente baixa; o CosyVoice se destaca na geração de fala multilíngue, geração de contexto de amostra zero, clonagem de voz entre idiomas e capacidade de seguir instruções. Os modelos relacionados foram disponibilizados em código aberto no Modelscope e Huggingface, e o código para treinamento, inferência e ajuste fino está disponível no GitHub.
Abrir Site

FunAudioLLM Situação do Tráfego Mais Recente

Total de Visitas Mensais

8301

Taxa de Rejeição

53.74%

Média de Páginas por Visita

1.2

Duração Média da Visita

00:00:12

FunAudioLLM Tendência de Visitas

FunAudioLLM Distribuição Geográfica das Visitas

FunAudioLLM Fontes de Tráfego

FunAudioLLM Alternativas