Na Conferência Internacional de Recuperação de Informações Musicais (ISMIR) de 2024, pesquisadores apresentaram seu modelo MusiConGen recém-desenvolvido. Este modelo é um modelo de geração de música de texto baseado em Transformer, que, através da introdução de um mecanismo de condicionamento temporal, melhora significativamente o controle do ritmo e dos acordes musicais.

image.png

Acesso ao produto: https://top.aibase.com/tool/musicongen

O modelo MusiConGen foi ajustado com base na estrutura pré-treinada MusicGen-melody e é principalmente usado para gerar fragmentos musicais de vários estilos. A equipe de pesquisa, através da configuração de parâmetros de controle de acordes e ritmo, apresentou amostras de música geradas pelo modelo, abrangendo cinco estilos diferentes: blues casual, smooth acid jazz, rock clássico, funk de alta energia e heavy metal.

Cada estilo musical possui requisitos claros de acordes e ritmo, esses dados são provenientes do banco de dados RWC-pop-100, e os acordes gerados são estimados através do modelo de reconhecimento de acordes BTC.

Para verificar a eficácia do MusiConGen, os pesquisadores o compararam com modelos de referência e modelos de referência ajustados. Com as mesmas configurações de controle de acordes e ritmo, o MusiConGen apresentou maior precisão e consistência de estilo nas amostras de música geradas, demonstrando sua vantagem tecnológica na geração de música.

Destaques:

🎵 MusiConGen é um modelo de geração de música de texto baseado em Transformer que pode melhorar o controle de ritmo e acordes através do condicionamento temporal.

🔍 Em comparação com modelos tradicionais e modelos ajustados, o MusiConGen demonstra uma melhoria significativa na geração de música.

🎸 A música gerada pelo modelo abrange cinco estilos diferentes e pode simular com precisão os requisitos específicos de acordes e ritmo.