UniMuMo ist ein multimodales Modell, das beliebige Text-, Musik- und Bewegungsdaten als Eingabebedingungen verwenden kann, um Ausgaben über alle drei Modalitäten hinweg zu generieren. Das Modell verbindet diese Modalitäten über eine einheitliche Encoder-Decoder-Transformer-Architektur, indem Musik, Bewegung und Text in tokenbasierte Darstellungen umgewandelt werden. Durch Feinabstimmung vorhandener unimodaler vortrainierter Modelle werden die Rechenanforderungen deutlich reduziert. UniMuMo erzielt in allen unidirektionalen Generierungs-Benchmark-Tests für Musik-, Bewegungs- und Textmodalitäten wettbewerbsfähige Ergebnisse.