SpeechGPT2
Modelo de diálogo de voz humanoide de extremo a extremo
Nuevo Producto PremiumChatDiálogo de vozExpresión emocional
SpeechGPT2 es un modelo de lenguaje de diálogo de voz de extremo a extremo desarrollado por la Facultad de Ciencias de la Computación de la Universidad de Fudan. Es capaz de percibir y expresar emociones, y proporcionar respuestas de voz adecuadas en varios estilos según el contexto y las instrucciones humanas. El modelo utiliza un codificador-decodificador de voz de tasa de bits ultrabaja (750 bps) para simular información semántica y acústica, e se inicializa mediante un modelo de lenguaje de múltiples entradas y múltiples salidas (MIMO-LM). Actualmente, SpeechGPT2 es un sistema de diálogo basado en turnos; se está desarrollando una versión en tiempo real de dúplex completo, y se han logrado algunos avances prometedores. A pesar de las limitaciones en los recursos de computación y datos, SpeechGPT2 aún presenta deficiencias en la robustez al ruido en la comprensión del habla y en la estabilidad de la calidad del sonido en la generación de voz. Se planea publicar en el futuro un informe técnico, el código y los pesos del modelo de código abierto.
SpeechGPT2 Situación del tráfico más reciente
Total de visitas mensuales
536
Tasa de rebote
37.61%
Páginas promedio por visita
1.9
Duración promedio de la visita
00:00:31