UniMuMo
Modèle de génération unifié de texte, musique et mouvement
Produit OrdinaireMusiqueIntelligence artificielleApprentissage automatique
UniMuMo est un modèle multi-modal capable de prendre en entrée des données textuelles, musicales et de mouvement arbitraires pour générer des sorties couvrant les trois modalités. Le modèle relie ces modalités grâce à une architecture de transformateur encodeur-décodeur unifiée, en convertissant la musique, le mouvement et le texte en représentations basées sur des jetons. Il réduit considérablement les besoins en calcul en affinant des modèles pré-entraînés unimodaux existants. UniMuMo obtient des résultats compétitifs sur tous les benchmarks de génération unidirectionnelle pour les modalités musicales, de mouvement et textuelles.
UniMuMo Dernière situation du trafic
Nombre total de visites mensuelles
231
Taux de rebond
42.88%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00