En el campo de la inteligencia artificial, la empresa Hume AI ha anunciado recientemente el lanzamiento de su nuevo producto, Octave, un sistema descrito como el primer sistema de texto a voz impulsado por un modelo de lenguaje grande (LLM). La innovación de Octave radica en su capacidad no solo para generar voz natural, sino también para comprender las emociones, el tono, el ritmo y la entonación dentro del contexto, ofreciendo así una salida de voz más vívida y humana.

Alan Cowen, cofundador y CEO de Hume AI, en una entrevista con los medios, afirmó que el modelo Octave fue diseñado para hacer que el proceso de generación de texto a voz sea más natural y flexible. Mencionó que Octave puede identificar automáticamente el carácter y el estado emocional del texto de entrada y ajustar la expresión de voz en consecuencia. Por ejemplo, las frases sarcásticas se expresarán con un tono sarcástico, mientras que el contenido urgente se presentará con un tono apresurado.

Control de voz

Octave también cuenta con una función única que permite a los usuarios ajustar con precisión el sonido generado mediante simples instrucciones en lenguaje natural. Esto significa que los usuarios pueden introducir descripciones como "más alegre", "más triste", etc., para que la voz generada se ajuste mejor a sus expectativas. Cowen añadió que Octave puede generar inmediatamente la voz correspondiente a las características de un personaje, como un "campesino medieval sarcástico", y ajustar la expresión emocional en consecuencia.

QQ20250227-092641.png

A diferencia de los modelos tradicionales de procesamiento palabra por palabra, Octave prioriza la coherencia contextual y puede captar los cambios emocionales a nivel de oración e interoracional. Esta capacidad hace que Octave se desempeñe mejor en el manejo de emociones y contextos complejos.

Con el rápido desarrollo de la tecnología de inteligencia artificial, el sistema Octave de Hume AI ha abierto nuevas posibilidades para la tecnología de texto a voz. No solo puede proporcionar doblajes de personajes más realistas para la producción cinematográfica y el desarrollo de juegos, sino que también abre nuevas vías para aplicaciones en educación, atención al cliente y otros campos. Esta innovación de Hume AI impulsará aún más el desarrollo de la tecnología de voz, facilitando una comunicación más natural y emocional.