Recentemente, a Universidade Johns Hopkins e o laboratório de IA da Tencent lançaram um novo modelo de geração de áudio a partir de texto chamado EzAudio. Essa tecnologia promete converter texto em fala com eficiência e alta qualidade sem precedentes, marcando um grande avanço na inteligência artificial e na tecnologia de áudio.
O EzAudio funciona utilizando o espaço latente de formas de onda de áudio, em vez dos tradicionais espectrogramas. Essa inovação permite que ele opere com alta resolução temporal sem a necessidade de codificadores de voz neurais adicionais.
A arquitetura do EzAudio, chamada EzAudio-DiT (Transformador de Difusão), emprega diversas inovações tecnológicas para melhorar o desempenho e a eficiência. Isso inclui uma nova técnica de normalização de camada adaptativa AdaLN-SOLA, conexões de salto longas e técnicas avançadas de codificação posicional, como RoPE (incorporação posicional rotacional).
Os pesquisadores afirmam que as amostras de áudio geradas pelo EzAudio são muito realistas, superando os modelos open source existentes em avaliações objetivas e subjetivas.
Atualmente, o mercado de geração de áudio por IA está crescendo rapidamente. Empresas de renome como a ElevenLabs lançaram recentemente um aplicativo iOS para conversão de texto em fala, demonstrando o grande interesse dos consumidores em ferramentas de áudio com IA. Ao mesmo tempo, gigantes da tecnologia como Microsoft e Google estão investindo cada vez mais em tecnologias de simulação de voz com IA.
De acordo com a Gartner, até 2027, 40% das soluções de IA generativa serão multimodais, combinando texto, imagem e áudio. Isso significa que modelos de geração de áudio de alta qualidade, como o EzAudio, podem desempenhar um papel importante no campo em constante evolução da IA.
A equipe do EzAudio disponibilizou seu código, conjunto de dados e checkpoints do modelo, enfatizando a transparência e incentivando pesquisas adicionais na área.
Os pesquisadores acreditam que as aplicações do EzAudio podem ir além da geração de efeitos sonoros, abrangendo áreas como produção de voz e música. Com o avanço da tecnologia, espera-se que seja amplamente utilizado em setores como entretenimento, mídia, serviços de assistência e assistentes virtuais.
demo:https://huggingface.co/spaces/OpenSound/EzAudio
Página do projeto:https://github.com/haidog-yaqub/EzAudio?tab=readme-ov-file
Destaques:
🌟 O EzAudio é um novo modelo de geração de áudio a partir de texto, desenvolvido em parceria entre a Universidade Johns Hopkins e a Tencent, representando um grande avanço na tecnologia de áudio.
🎧 Graças à sua arquitetura e tecnologias inovadoras, o modelo gera amostras de áudio de alta qualidade, superiores aos modelos open source existentes, com amplo potencial de aplicação.
⚖️ Com o desenvolvimento da tecnologia, questões éticas e de responsabilidade se tornam cada vez mais importantes. A disponibilização do código de pesquisa do EzAudio oferece uma ampla oportunidade para testar os riscos e benefícios futuros.