Recientemente, el laboratorio LANCE de la Universidad Jiao Tong de Shanghai y ByteDance se unieron para lanzar un nuevo modelo de voz interactivo llamado LSLM. Se dice que este modelo puede escuchar y hablar simultáneamente, con un rendimiento excelente que se acerca a la conversación natural humana.
LSLM, apodado "pequeña L", resuelve las limitaciones de los modelos de voz existentes en la interacción en tiempo real, la resistencia al ruido y el reconocimiento de hablantes desconocidos, acercándolo a la conversación natural humana. Emplea un diseño de extremo a extremo, que incluye dos canales, auditivo y vocal, utiliza TTS de decodificador únicamente para la generación de voz y un codificador de aprendizaje autosupervisado en flujo (SSL) para procesar la entrada de audio en tiempo real.
"Pequeña L" tiene características únicas: modelado full-duplex (FDM), que permite escuchar y hablar simultáneamente, permitiendo interrupciones y turnos en la conversación; alta resistencia al ruido, manteniendo la estabilidad en entornos ruidosos y adaptándose a diversas situaciones reales; y sensibilidad a hablantes desconocidos, capaz de reconocer y responder a nuevas voces e instrucciones, adaptándose a diferentes usuarios.
Detalles del proyecto: https://ziyang.tech/LSLM/
Artículo: https://arxiv.org/abs/2408.02622