¡El campo de la interacción por voz ha experimentado un avance revolucionario! La empresa china de IA, Step Audio, ha lanzado recientemente un modelo de voz ultralarge con 1300 millones de parámetros, causando una gran expectación en la industria. Este potente modelo, considerado de "dominio", es el primer sistema de diálogo de voz en tiempo real de código abierto a nivel de producto que integra la comprensión y el control de la generación de voz. Su funcionalidad integral y su avanzada tecnología son asombrosas, lo que indica que el desarrollo de la tecnología de IA de voz podría dar un salto cualitativo hacia nuevas alturas.

El punto más destacado de este modelo de código abierto radica en su diseño integrado y su poderosa capacidad de control. No solo comprende con precisión las instrucciones de voz del usuario, sino que también controla de forma altamente flexible el proceso de generación de voz, ofreciendo una experiencia de interacción de voz personalizada sin precedentes.

image.png

En cuanto al soporte lingüístico, este modelo muestra una asombrosa capacidad multilingüe, con una fluidez impecable entre chino, inglés y japonés, lo que facilita la comunicación entre idiomas. Más sorprendente aún es su soporte profundo para dialectos, actualmente cubriendo cantonés y dialecto de Sichuan, entre otros dialectos principales, haciendo que la interacción por voz sea más cercana a la vida cotidiana y más humana.

Además del idioma, este modelo puede controlar con precisión las emociones del habla. Los usuarios pueden configurar libremente el tono emocional del habla, como alegría y tristeza, haciendo que la expresión de la IA sea más conmovedora. La velocidad y el estilo rítmico del habla también se pueden ajustar a voluntad para satisfacer las necesidades expresivas en diferentes escenarios. Incluso va más allá, ya que admite rap y canto, formas de voz más creativas, abriendo infinitas posibilidades para la creación de contenido.

image.png

Lo más impresionante es que este modelo también cuenta con la función de clonación de voz, lo que significa que los usuarios pueden utilizar esta tecnología para crear asistentes de voz altamente personalizados, e incluso lograr la "réplica" y "transmisión" de voces.

El lanzamiento de código abierto de este potente modelo de voz por parte de Step Audio impulsará enormemente el progreso tecnológico y la innovación en aplicaciones de toda la industria. No solo reduce significativamente el umbral de aplicación de la tecnología de IA de voz, sino que también presagia un futuro en el que la interacción por voz será más inteligente, natural y personalizada, integrándose verdaderamente en la vida cotidiana de las personas.

Dirección del proyecto: https://github.com/stepfun-ai/Step-Audio/tree/main