Recientemente, la Universidad Johns Hopkins y el laboratorio de IA de Tencent lanzaron un nuevo modelo de generación de audio a partir de texto llamado EzAudio. Esta tecnología promete convertir texto en voz con una eficiencia y calidad sin precedentes, marcando un gran avance en la inteligencia artificial y la tecnología de audio.

image.png

EzAudio funciona utilizando el espacio latente de las formas de onda de audio, en lugar de los tradicionales espectrogramas. Esta innovación le permite trabajar con alta resolución temporal sin necesidad de un codificador-decodificador neuronal adicional.

La arquitectura de EzAudio, llamada EzAudio-DiT (Transformador de Difusión), emplea varias innovaciones tecnológicas para mejorar el rendimiento y la eficiencia. Entre ellas se incluyen una nueva técnica de normalización de capas adaptativa AdaLN-SOLA, conexiones residuales de largo alcance y técnicas avanzadas de codificación posicional como RoPE (Rotación de incrustaciones posicionales).

Los investigadores afirman que las muestras de audio generadas por EzAudio son muy realistas, superando a los modelos de código abierto existentes en evaluaciones objetivas y subjetivas.

Actualmente, el mercado de generación de audio con IA está creciendo rápidamente. Empresas conocidas como ElevenLabs lanzaron recientemente una aplicación para iOS para la conversión de texto a voz, lo que demuestra el gran interés de los consumidores en las herramientas de audio con IA. Al mismo tiempo, gigantes tecnológicos como Microsoft y Google están invirtiendo cada vez más en tecnologías de simulación de voz con IA.

Según las previsiones de Gartner, para 2027, el 40% de las soluciones de IA generativa serán multimodales, combinando texto, imágenes y audio. Esto significa que modelos de generación de audio de alta calidad como EzAudio podrían desempeñar un papel importante en el campo en constante evolución de la IA.

El equipo de EzAudio ha publicado su código, conjunto de datos y puntos de control del modelo, destacando la transparencia y fomentando la investigación adicional en este campo.

Los investigadores creen que las aplicaciones de EzAudio podrían ir más allá de la generación de efectos de sonido, incluyendo la producción de voz y música. Con el avance de la tecnología, se espera que tenga una amplia aplicación en industrias como el entretenimiento, los medios de comunicación, los servicios de asistencia y los asistentes virtuales.

demo:https://huggingface.co/spaces/OpenSound/EzAudio

Acceso al proyecto:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file

Puntos clave:

🌟 EzAudio es un nuevo modelo de generación de audio a partir de texto desarrollado conjuntamente por la Universidad Johns Hopkins y Tencent, que representa un gran avance en la tecnología de audio.

🎧 Gracias a su innovadora arquitectura y tecnología, el modelo genera muestras de audio de una calidad superior a la de los modelos de código abierto existentes, con un amplio potencial de aplicación.

⚖️ Con el desarrollo de la tecnología, las cuestiones éticas y de uso responsable se hacen cada vez más importantes. La publicación del código de investigación de EzAudio ofrece una amplia oportunidad para evaluar los riesgos y beneficios futuros.