Na área de inteligência artificial, a tecnologia de geração de áudio a partir de texto está se tornando um foco crescente de pesquisa. Recentemente, pesquisadores lançaram um novo modelo chamado TANGOFLUX, que demonstra excelente desempenho e eficiência.

TANGOFLUX é um modelo eficiente de geração de áudio a partir de texto, com 515 milhões de parâmetros. Ele consegue gerar áudio de até 30 segundos a 44,1 kHz em apenas 3,7 segundos, um desempenho notável em uma única GPU A40.

image.png

Uma das principais características do TANGOFLUX é a capacidade de gerar vários efeitos sonoros, como cantos de pássaros, assobios e explosões. Também suporta a geração de música, embora os resultados não sejam tão ideais.

Um dos principais desafios dos modelos de geração de áudio a partir de texto é a criação de pares de preferências. Diferentemente dos grandes modelos de linguagem (LLMs), os modelos de geração de áudio a partir de texto carecem de mecanismos de recompensa verificáveis ou respostas padrão-ouro. Para solucionar esse problema, a equipe de pesquisa propôs uma nova estrutura chamada CLAP-Ranked Preference Optimization (CRPO). Essa estrutura melhora o desempenho de alinhamento do modelo de geração de áudio a partir de texto por meio da geração e otimização iterativas de dados de preferência. Estudos demonstram que os dados de preferência de áudio gerados usando o CRPO superam as alternativas existentes.

Por meio dessa estrutura, o TANGOFLUX obteve resultados de ponta em vários testes de referência objetivos e subjetivos. Além disso, a equipe de pesquisa decidiu disponibilizar todo o código e o modelo como código aberto para apoiar mais pesquisas na geração de áudio a partir de texto. Para cenários de aplicação que exigem geração de áudio, o TANGOFLUX é, sem dúvida, um avanço tecnológico significativo.

Em termos de resultados práticos, o TANGOFLUX supera outros modelos na qualidade da geração de áudio, apresentando sons de eventos mais nítidos, melhor reprodução da sequência de eventos e maior qualidade de áudio. Comparando vários exemplos, os usuários podem perceber intuitivamente as vantagens do TANGOFLUX na geração de áudio.

Prompt: Um assobio humano melodioso coexistindo harmoniosamente com o canto natural dos pássaros. O resultado gerado é o seguinte:

Com o advento dessa nova tecnologia, as perspectivas de aplicação da geração de áudio a partir de texto são cada vez mais amplas, e no futuro poderá desempenhar um papel importante em áreas como produção cinematográfica e efeitos sonoros de jogos.

Link do projeto: https://tangoflux.github.io/

Destaques:

🎧 TANGOFLUX é um modelo eficiente de geração de áudio a partir de texto, capaz de gerar áudio de alta qualidade com 30 segundos em 3,7 segundos.

🔧 Apresenta a estrutura CLAP-Ranked Preference Optimization (CRPO) para otimizar o desempenho do modelo e os dados de preferência de áudio.

🌍 Todo o código e o modelo foram disponibilizados como código aberto para impulsionar a pesquisa e a aplicação da geração de áudio a partir de texto.