Na Conferência Internacional de Recuperação de Informações Musicais (ISMIR) de 2024, pesquisadores apresentaram seu modelo MusiConGen recém-desenvolvido. Este modelo é um modelo de geração de música de texto baseado em Transformer, que, através da introdução de um mecanismo de condicionamento temporal, melhora significativamente o controle do ritmo e dos acordes musicais.
Acesso ao produto: https://top.aibase.com/tool/musicongen
O modelo MusiConGen foi ajustado com base na estrutura pré-treinada MusicGen-melody e é principalmente usado para gerar fragmentos musicais de vários estilos. A equipe de pesquisa, através da configuração de parâmetros de controle de acordes e ritmo, apresentou amostras de música geradas pelo modelo, abrangendo cinco estilos diferentes: blues casual, smooth acid jazz, rock clássico, funk de alta energia e heavy metal.
Cada estilo musical possui requisitos claros de acordes e ritmo, esses dados são provenientes do banco de dados RWC-pop-100, e os acordes gerados são estimados através do modelo de reconhecimento de acordes BTC.
Para verificar a eficácia do MusiConGen, os pesquisadores o compararam com modelos de referência e modelos de referência ajustados. Com as mesmas configurações de controle de acordes e ritmo, o MusiConGen apresentou maior precisão e consistência de estilo nas amostras de música geradas, demonstrando sua vantagem tecnológica na geração de música.
Destaques:
🎵 MusiConGen é um modelo de geração de música de texto baseado em Transformer que pode melhorar o controle de ritmo e acordes através do condicionamento temporal.
🔍 Em comparação com modelos tradicionais e modelos ajustados, o MusiConGen demonstra uma melhoria significativa na geração de música.
🎸 A música gerada pelo modelo abrange cinco estilos diferentes e pode simular com precisão os requisitos específicos de acordes e ritmo.