Los asistentes de voz se están convirtiendo en una parte indispensable de nuestras vidas, pero los asistentes de voz digitales existentes a menudo parecen insípidos y carecen de elementos emocionales y humanizados en sus interacciones con los usuarios. Para abordar esto, el equipo de Sesame está trabajando arduamente para resolver este problema y lograr un nuevo concepto de "presencia de voz", haciendo que los asistentes digitales sean más auténticos, comprensibles y valorados en la comunicación.

QQ_1740965796294.png

El objetivo principal de Sesame es crear un compañero digital que no sea solo una herramienta para procesar solicitudes, sino un compañero capaz de mantener conversaciones reales. Estos compañeros digitales aspiran a construir confianza y seguridad a través de la interacción con el usuario, permitiendo una comunicación más rica y profunda en la vida diaria. Para ello, el equipo de Sesame se centra en varios componentes clave: inteligencia emocional, dinámica de la conversación, conciencia contextual y personalidad consistente.

La inteligencia emocional es la capacidad del asistente de voz para comprender y responder al estado emocional del usuario. No se limita a comprender las órdenes de voz, sino que debe percibir los cambios emocionales en el habla y proporcionar una respuesta más adecuada. En segundo lugar, la dinámica de la conversación enfatiza el ritmo natural que debe tener el asistente de voz durante la comunicación, incluyendo pausas oportunas, énfasis tonal apropiado e interrupciones, haciendo que la conversación sea más fluida y natural.

Además, la conciencia contextual es crucial. Requiere que el asistente de voz ajuste flexiblemente el tono y el estilo según el contexto e historial de la conversación. Esta capacidad permite que el asistente digital sea apropiado en diferentes situaciones, mejorando la satisfacción del usuario. Finalmente, una personalidad consistente significa que el asistente de voz debe mantener una personalidad y un estilo relativamente uniformes en todas las conversaciones para aumentar la confianza del usuario.

Sin embargo, lograr el objetivo de la "presencia de voz" no es tarea fácil. El equipo de Sesame ha logrado avances graduales en varios aspectos, incluyendo personalidad, memoria, expresividad y adecuación. Recientemente, el equipo mostró algunos resultados experimentales en la generación de voz conversacional, especialmente en la optimización de la amabilidad y la expresividad, mostrando el potencial de su método.

A nivel técnico, el equipo de Sesame propone un nuevo método llamado "Modelo de Voz Conversacional" (CSM, por sus siglas en inglés) para abordar las deficiencias de los modelos tradicionales de texto a voz (TTS). Este método utiliza una arquitectura de transformador para lograr una generación de voz más natural y coherente. El CSM no solo maneja el aprendizaje multimodal de texto y audio, sino que también puede ajustar la salida según el historial de la conversación, resolviendo así las deficiencias de los modelos tradicionales en la comprensión del contexto.

Para verificar la eficacia del modelo, el equipo de Sesame utilizó una gran cantidad de datos de audio públicos para el entrenamiento, y preparó muestras de entrenamiento mediante transcripción y segmentación. Entrenaron modelos de diferentes tamaños y obtuvieron buenos resultados en los indicadores de evaluación objetivos y subjetivos. Aunque la naturalidad y la adaptabilidad del habla del modelo se acercan al nivel humano, todavía hay margen de mejora en contextos de conversación específicos.

Según las muestras proporcionadas oficialmente, las obras generadas casi no muestran ningún componente de IA, son increíblemente realistas.

El equipo de Sesame planea publicar su investigación de código abierto para que la comunidad pueda participar en la experimentación y la mejora. Esta iniciativa no solo ayudará a acelerar el desarrollo de la IA conversacional, sino que también espera ampliar la escala del modelo y el soporte de idiomas para cubrir más escenarios de aplicación. Además, el equipo también planea explorar cómo utilizar modelos de lenguaje preentrenados para sentar las bases para la construcción de modelos multimodales.

Demo del proyecto: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

Puntos clave:

🌟 El equipo de Sesame se dedica a lograr la "presencia de voz", haciendo que los asistentes digitales no solo ejecuten comandos, sino que también mantengan conversaciones reales.

🔧 Mediante el "Modelo de Voz Conversacional" (CSM), el equipo ha logrado nuevos avances en la comprensión del contexto y la generación de voz.

🌐 El equipo planea publicar su investigación de código abierto y ampliar el soporte de idiomas para impulsar el desarrollo de la IA conversacional.