ControlMM: Generación de movimientos corporales completos a partir de entradas multimodales de texto, voz y música

La Universidad China de Hong Kong y Tencent lanzaron un nuevo marco tecnológico, ControlMM, que supone un gran avance en la generación de movimientos corporales completos. Esta tecnología admite la entrada de múltiples modalidades, como texto, voz y música, para generar movimientos corporales que coincidan con el contenido.

Enlace al producto: https://top.aibase.com/tool/controlmm

ControlMM se creó para resolver los numerosos problemas que existen actualmente en la generación de movimiento corporal multimodal controlado por texto, voz o música. Por ejemplo, la deriva de la distribución del movimiento en diferentes escenarios de generación, la optimización compleja de diferentes granularidades de condiciones mixtas y los formatos de movimiento inconsistentes en los conjuntos de datos existentes.

Para abordar eficazmente estos desafíos, los investigadores propusieron una serie de métodos innovadores. En primer lugar, ControlMM-Attn se utiliza para modelar en paralelo los mapas topológicos estáticos y dinámicos del cuerpo humano, con el fin de aprender y transmitir eficazmente el conocimiento del movimiento en diferentes distribuciones del movimiento.

En segundo lugar, ControlMM adopta una estrategia de entrenamiento de grueso a fino, que incluye un preentrenamiento de texto a movimiento en la fase 1 para la generación semántica, y una adaptación de control multimodal en la fase 2 para diferentes condiciones de granularidad inferior.

Además, para solucionar la limitación de los formatos de movimiento inconsistentes en los conjuntos de datos de referencia existentes, se lanzó ControlMM-Bench, el primer conjunto de datos de referencia de generación de movimiento corporal multimodal de acceso público basado en el formato SMPL-X unificado para cuerpo completo.

Mediante numerosos experimentos, ControlMM ha demostrado un excelente rendimiento en diversas tareas estándar de generación de movimiento. Tanto en Text-to-Motion, Speech-to-Gesture como Music-to-Dance. En comparación con los modelos de referencia, ControlMM presenta ventajas significativas en cuanto a controlabilidad, secuencialidad y razonabilidad del movimiento.

Puntos destacados de las funciones de ControlMM:
1. ** Control multimodal **: ControlMM admite la generación de movimiento corporal completo mediante múltiples modalidades, como texto, voz y música, lo que aumenta la capacidad de control y la adaptabilidad.
2. ** Marco unificado **: Se utiliza un marco ControlMM unificado, lo que permite la integración de diversas tareas de generación de movimiento y mejora la eficiencia de la generación.
3. ** Estrategia de entrenamiento por etapas **: Mediante una estrategia de entrenamiento de grueso a fino, primero se realiza un preentrenamiento de texto a movimiento, y luego se adapta la señal de control de bajo nivel, lo que garantiza la eficacia del modelo en condiciones de diferentes granularidades.
4. ** Aprendizaje eficiente del conocimiento del movimiento **: El módulo ControlMM-Attn modela en paralelo los mapas topológicos estáticos y dinámicos del cuerpo humano, optimiza la representación de la secuencia de movimiento y mejora la precisión de la generación de movimiento.
5. ** Introducción de un nuevo conjunto de datos de referencia **: Se lanza ControlMM-Bench, que proporciona el primer conjunto de datos de referencia de generación de movimiento corporal multimodal de acceso público basado en el formato SMPL-X unificado, lo que ayuda a impulsar la investigación y las aplicaciones en este campo.
6. ** Resultados de generación superiores **: En diversas tareas estándar de generación de movimiento, ControlMM muestra un rendimiento líder, incluyendo controlabilidad, continuidad y razonabilidad del movimiento.

Noticias de IA

ControlMM: Generación de movimientos corporales completos a partir de entradas multimodales de texto, voz y música

AIbase基地