A Universidade Chinesa de Hong Kong e a Tencent lançaram uma nova estrutura técnica, ControlMM, que proporciona um avanço significativo na geração de movimentos corporais completos. Essa tecnologia suporta a entrada de vários modos, como texto, voz e música, gerando movimentos corporais completos que correspondem ao conteúdo.

image.png

Acesso ao produto: https://top.aibase.com/tool/controlmm

O ControlMM foi criado para resolver diversos desafios atuais na geração de movimentos multimodais corporais completos controlados por texto, voz ou música. Por exemplo, a deriva da distribuição de movimentos em diferentes cenários de geração, a otimização complexa de diferentes granularidades de condições mistas e a inconsistência dos formatos de movimento nos conjuntos de dados existentes.

Para lidar eficazmente com esses desafios, os pesquisadores propuseram uma série de métodos inovadores. Primeiro, o ControlMM-Attn é usado para modelar em paralelo os gráficos topológicos estáticos e dinâmicos do corpo humano, para aprender e transferir eficazmente o conhecimento de movimento em diferentes distribuições de movimento.

Em segundo lugar, o ControlMM adotou uma estratégia de treinamento de cima para baixo, incluindo o pré-treinamento de texto para movimento na Fase 1 para geração semântica e a adaptação de controle multi-modal na Fase 2 para diferentes condições de granularidade inferior.

Além disso, para resolver a limitação da inconsistência do formato de movimento nos benchmarks existentes, foi lançado o ControlMM-Bench, o primeiro benchmark público de geração de movimento corporal completo multi-modal baseado no formato SMPL-X unificado para o corpo inteiro.

Por meio de experimentos extensivos, o ControlMM apresentou um desempenho excelente em várias tarefas padrão de geração de movimento. Seja em Text-to-Motion, Speech-to-Gesture ou Music-to-Dance. Em comparação com os modelos de linha de base, o ControlMM apresenta vantagens significativas em termos de controlabilidade, sequencialidade e razoabilidade do movimento.

Destaques do ControlMM:

1. ** Controle multi-modal **: O ControlMM suporta a geração de movimento corporal completo por meio de várias modalidades, como texto, voz e música, melhorando a capacidade de controle e a adaptabilidade.

2. ** Estrutura unificada **: Adota uma estrutura ControlMM unificada, integrando várias tarefas de geração de movimento e aumentando a eficiência da geração.

3. ** Estratégia de treinamento em etapas **: Por meio de uma estratégia de treinamento de cima para baixo, primeiro realiza o pré-treinamento de texto para movimento e, em seguida, a adaptação de sinais de controle de baixo nível, garantindo a eficácia do modelo em diferentes condições de granularidade.

4. ** Aprendizagem eficiente de conhecimento de movimento **: O módulo ControlMM-Attn modela em paralelo gráficos topológicos estáticos e dinâmicos do corpo humano, otimizando a representação de sequências de movimento e melhorando a precisão da geração de movimento.

5. ** Introdução de novo benchmark **: Lança o ControlMM-Bench, fornecendo o primeiro benchmark público de geração de movimento corporal completo multi-modal baseado no formato SMPL-X unificado, ajudando a impulsionar a pesquisa e aplicação nessa área.

6. ** Resultados de geração superiores **: Em várias tarefas padrão de geração de movimento, o ControlMM demonstra desempenho de ponta, incluindo controlabilidade, continuidade e razoabilidade do movimento.