Auf der International Conference on Music Information Retrieval (ISMIR) 2024 präsentierten Forscher ihr neuestes Musikgenerierungsmodell, MusiConGen. Dieses auf dem Transformer-Modell basierende Text-zu-Musik-Modell verbessert durch einen eingeführten Zeitbedingungsmechanismus die Steuerung von Rhythmus und Akkorden deutlich.

image.png

Produktzugang: https://top.aibase.com/tool/musicongen

MusiConGen wurde auf Basis des vortrainierten MusicGen-Melody-Frameworks feinabgestimmt und dient hauptsächlich zur Generierung von Musikfragmenten in verschiedenen Stilen. Das Forschungsteam demonstrierte anhand von Musikbeispielen mit einstellbaren Parametern für Akkorde und Rhythmus die Fähigkeiten des Modells, welches fünf verschiedene Stile abdeckt: entspannter Blues, smoother Acid Jazz, klassischer Rock, energiegeladener Funk und Heavy Metal.

Jeder Stil hat eindeutige Akkord- und Rhythmusanforderungen, die aus der RWC-pop-100-Datenbank stammen. Die generierten Akkorde wurden mit dem BTC-Akkorderkennungsmodell geschätzt.

Um die Effektivität von MusiConGen zu validieren, verglichen die Forscher es mit einem Baseline-Modell und einem feinabgestimmten Baseline-Modell. Unter denselben Bedingungen für Akkord- und Rhythmussteuerung zeigte MusiConGen in den generierten Musikbeispielen eine höhere Genauigkeit und Stilkonsistenz und unterstreicht damit seinen technischen Vorsprung in der Musikgenerierung.

Wichtigste Punkte:

🎵 MusiConGen ist ein auf Transformer basierendes Text-zu-Musik-Modell, das die Kontrolle über Rhythmus und Akkorde durch zeitliche Konditionierung verbessert.

🔍 Im Vergleich zu traditionellen und feinabgestimmten Modellen zeigt MusiConGen eine signifikante Verbesserung in der Musikgenerierung.

🎸 Das Modell generiert Musik in fünf verschiedenen Stilen und kann spezifische Akkord- und Rhythmusanforderungen präzise simulieren.