Recentemente, a equipe Stability AI lançou um novo modelo de geração de áudio de código aberto, chamado Stable Audio Open. O que torna este modelo especial é sua capacidade de gerar áudio estéreo com duração de até 47 segundos e taxa de amostragem de 44,1 kHz a partir de prompts de texto.
Acesso ao produto:https://top.aibase.com/tool/stable-audio-open-demo
Diferentemente de muitos modelos de geração de áudio populares atualmente, os pesos do Stable Audio Open são abertos, o que significa que qualquer pessoa pode visualizar, modificar e expandir este modelo. Essa filosofia de design não apenas impulsiona o progresso da pesquisa científica, mas também oferece mais possibilidades para os desenvolvedores. Mais importante ainda, este modelo foi treinado apenas com arquivos de áudio licenciados pela Creative Commons, garantindo a legalidade dos dados e evitando potenciais problemas de direitos autorais, demonstrando um alto respeito pelo uso ético de dados.
Em termos de arquitetura técnica, o Stable Audio Open emprega uma arquitetura avançada que garante alta fidelidade na geração de áudio a partir de texto. Ele pode gerar áudio estéreo de alta qualidade, proporcionando aos usuários uma experiência sonora clara e realista. Durante o treinamento, o modelo foi exposto a uma variedade de amostras de áudio, o que o ajudou a aprender paisagens sonoras mais ricas, tornando o áudio gerado mais realista e diversificado.
Além disso, para garantir que o desempenho do novo modelo seja comparável aos modelos de ponta do setor, a equipe de desenvolvimento realizou uma avaliação de desempenho completa. Usando o FDopenl3 como um indicador de avaliação chave, os pesquisadores descobriram que o modelo apresenta um desempenho notável na geração de áudio de alta qualidade, comparável a outros modelos excelentes do setor. Este estudo comparativo demonstra ainda mais a superioridade e utilidade do Stable Audio Open.
O lançamento do Stable Audio Open não se concentra apenas na abertura e na síntese de áudio de alta qualidade, mas também fornece uma ferramenta importante para pesquisadores, artistas e desenvolvedores.
Destaques:
- 🎧 A Stability AI lançou o Stable Audio Open, um modelo de código aberto que suporta a geração de áudio estéreo de 44,1 kHz com duração variável (máximo de 47 segundos).
- 📝 Este modelo foi treinado apenas com dados de áudio licenciados pela Creative Commons, garantindo a legalidade e a ética dos dados.
- 🔍 Em comparação com os modelos de ponta do setor, a qualidade da geração de áudio do Stable Audio Open foi verificada, apresentando alta fidelidade e diversidade.