Recientemente, la compañía Doubao anunció el lanzamiento de su nuevo modelo de lenguaje de voz en tiempo real, al que se refiere como un avance "abismal" en la conversación en chino, marcando una mejora significativa en la capacidad de diálogo de la IA. Este modelo está disponible en su totalidad en la aplicación Doubao (versión 7.2.0 edición Año Nuevo), ofreciendo a los usuarios una experiencia de comunicación de voz más rica y realista.

Según la descripción, el modelo de lenguaje de voz en tiempo real de Doubao ha logrado una profunda fusión entre la comprensión y la generación del habla, formando un sistema de diálogo de voz de extremo a extremo. Este avance tecnológico permite que el modelo destaque en expresividad vocal, control y manejo de las emociones, con baja latencia y la capacidad de interrumpir la conversación en cualquier momento, mejorando enormemente la experiencia interactiva del usuario. La empresa afirma que la tecnología no solo ha mejorado en "inteligencia", sino también en "empatía", pudiendo comprender y expresar emociones con mayor precisión.

image.png

Esta actualización también incluye una función de llamadas de voz en tiempo real, basada en el nuevo modelo de lenguaje de Doubao, que permite ajustar flexiblemente el ritmo de la conversación, el uso de diminutivos, el volumen y el tono de voz en diferentes escenarios. Además, la nueva función de voz puede imitar diferentes tonos de voz, admite conversaciones en varios dialectos chinos e inglés, e incluso puede cantar algunas canciones. Todo esto eleva la sensación de realismo en la interacción humano-máquina a un nuevo nivel, casi alcanzando un punto de "indistinguibilidad".

El equipo de desarrollo de Doubao afirma que esta nueva tecnología se basa en un marco de extremo a extremo, utilizando un método nativo para integrar profundamente el habla y el texto en un único modelo. Este diseño no solo optimiza el proceso de reconocimiento y generación de voz, sino que también dota a la IA de una "alma" más rica, permitiéndole comunicarse mejor con los humanos.

El lanzamiento del modelo de lenguaje de voz en tiempo real de Doubao en el campo de la conversación de voz en chino ofrecerá a los usuarios una experiencia interactiva sin precedentes y promoverá el desarrollo de la tecnología de voz inteligente.