UniMuMo
Modelo generativo unificado de texto, música y movimiento
Producto ComúnMúsicaInteligencia ArtificialAprendizaje Automático
UniMuMo es un modelo multimodal capaz de generar salidas que abarcan las tres modalidades (texto, música y movimiento) a partir de entradas de texto, música y movimiento arbitrarios. El modelo conecta estas modalidades a través de una arquitectura de transformador codificador-decodificador unificada, convirtiendo la música, el movimiento y el texto en representaciones basadas en tokens. Reduce significativamente las necesidades computacionales mediante el ajuste fino de modelos preentrenados unimodales existentes. UniMuMo ha obtenido resultados competitivos en todos los benchmarks de generación unidireccional en las modalidades de música, movimiento y texto.
UniMuMo Situación del tráfico más reciente
Total de visitas mensuales
231
Tasa de rebote
42.88%
Páginas promedio por visita
1.0
Duración promedio de la visita
00:00:00