MoMask é um modelo para geração de movimento corporal 3D baseado em texto. Ele emprega um esquema de quantização hierárquica para representar o movimento corporal com detalhes de alta fidelidade como tokens de movimento discretos em múltiplas camadas. O MoMask gera esses tokens a partir de uma entrada textual usando duas redes Transformer bidirecionais diferentes. O modelo supera os métodos existentes na tarefa de geração de movimento a partir de texto e pode ser aplicado perfeitamente a tarefas relacionadas, como a reparação temporal guiada por texto.