SpeechGPT2

Modelo de diálogo de voz humanoide de extremo a extremo

Nuevo Producto PremiumChatDiálogo de vozExpresión emocional
SpeechGPT2 es un modelo de lenguaje de diálogo de voz de extremo a extremo desarrollado por la Facultad de Ciencias de la Computación de la Universidad de Fudan. Es capaz de percibir y expresar emociones, y proporcionar respuestas de voz adecuadas en varios estilos según el contexto y las instrucciones humanas. El modelo utiliza un codificador-decodificador de voz de tasa de bits ultrabaja (750 bps) para simular información semántica y acústica, e se inicializa mediante un modelo de lenguaje de múltiples entradas y múltiples salidas (MIMO-LM). Actualmente, SpeechGPT2 es un sistema de diálogo basado en turnos; se está desarrollando una versión en tiempo real de dúplex completo, y se han logrado algunos avances prometedores. A pesar de las limitaciones en los recursos de computación y datos, SpeechGPT2 aún presenta deficiencias en la robustez al ruido en la comprensión del habla y en la estabilidad de la calidad del sonido en la generación de voz. Se planea publicar en el futuro un informe técnico, el código y los pesos del modelo de código abierto.
Abrir sitio web

SpeechGPT2 Situación del tráfico más reciente

Total de visitas mensuales

536

Tasa de rebote

37.61%

Páginas promedio por visita

1.9

Duración promedio de la visita

00:00:31

SpeechGPT2 Tendencia de visitas

SpeechGPT2 Distribución geográfica de las visitas

SpeechGPT2 Fuentes de tráfico