El laboratorio de inteligencia artificial X-LANCE de la Universidad Jiao Tong de Shanghai, en colaboración con ByteDance, ha creado el modelo de lenguaje de dúplex completo LSLM (Listen-Speak Language Model), que permite a los asistentes de IA escuchar y hablar simultáneamente, logrando una interacción en tiempo real.
Mientras conversas con un asistente de IA, si te ocurre una pregunta importante, no necesitas esperar a que termine de hablar. Puedes interrumpir y formular tu pregunta, y el asistente de IA la comprenderá y responderá inmediatamente, con la misma naturalidad y fluidez que una conversación humana. Esto ya no es ciencia ficción, sino una realidad.
La principal ventaja de LSLM radica en su capacidad de "escuchar y hablar simultáneamente". Este innovador modelo no solo puede escuchar sonidos externos mientras habla, sino que también admite la interacción de voz en tiempo real, incluso en entornos ruidosos. Integra inteligentemente los canales de audición y habla, procesando simultáneamente la entrada y la generación de voz.
Los modelos de lenguaje de voz tradicionales (SLM) solo permiten conversaciones por turnos y no pueden gestionar las interrupciones instantáneas de las situaciones de habla real. LSLM resuelve este problema, haciendo que la conversación entre la IA y los humanos sea más natural. Emplea un sistema de texto a voz (TTS) basado en decodificador de tokens, combinado con un codificador de aprendizaje autosupervisado en flujo (SSL), logrando la generación autorregresiva en tiempo real y la detección de cambio de turno en la conversación.
El equipo de investigación exploró tres estrategias: fusión temprana, fusión intermedia y fusión tardía. La fusión intermedia logró el mejor equilibrio entre la generación de voz y la interacción en tiempo real. A través de dos configuraciones experimentales, FDM basada en comandos y FDM basada en sonido, LSLM demostró una gran resistencia al ruido y una alta sensibilidad a instrucciones diversas.
Sorprendentemente, LSLM logró una capacidad de comunicación dual con un impacto mínimo en los sistemas existentes. Esto significa que se puede integrar perfectamente en los sistemas de IA existentes, mejorando significativamente la experiencia del usuario sin necesidad de una reconstrucción completa del marco.
Las perspectivas de aplicación de LSLM son amplias. En el futuro, los sistemas de conversación podrán interactuar en tiempo real con los humanos de forma más natural, ya sea en casa, en la oficina o en lugares públicos. Esto no solo cambiará la forma en que nos comunicamos con las máquinas, sino que también podría remodelar todo el panorama de la interacción humano-máquina.
En la demostración tecnológica, el equipo de investigación comparó el rendimiento de TTS tradicional y LSLM en entornos claros y ruidosos, mostrando las ventajas de LSLM. También explicaron mediante diagramas la evolución de los modelos de lenguaje de voz de simplex, half-duplex a full-duplex, permitiendo una comprensión más intuitiva de la importancia de este avance tecnológico.
Con la maduración continua de la tecnología LSLM, podemos esperar que los futuros asistentes de IA ofrezcan a los usuarios una experiencia de interacción más rica, fluida y humana. Conversar de forma natural y coherente con la IA podría ser tan fácil como charlar con un amigo.
Esta investigación no solo tiene un significado académico importante, sino que también abre nuevas posibilidades para las aplicaciones comerciales de la tecnología de interacción de voz. La aparición de LSLM marca el comienzo de una nueva era de interacción con la IA, donde los límites entre la conversación humana y la máquina se difuminarán cada vez más, y la fusión entre tecnología y humanidad alcanzará un nuevo nivel.
Dirección del proyecto: https://top.aibase.com/tool/lslm