Por muito tempo, as pessoas sonharam com robôs humanoides capazes de se mover com a mesma flexibilidade e destreza dos humanos, ou até mesmo superá-los. No entanto, devido às diferenças físicas entre os ambientes simulados e o mundo real, a realização de movimentos ágeis e coordenados em todo o corpo do robô continua sendo um grande desafio. Os métodos tradicionais de identificação do sistema e randomização de domínio geralmente dependem de ajustes de parâmetros trabalhosos ou resultam em movimentos robóticos excessivamente conservadores, sacrificando a agilidade. Agora, uma nova estrutura chamada ASAP (Aligning Simulation and Real Physics) surgiu, alinhando habilmente as características físicas da simulação e da realidade, permitindo que robôs humanoides dominem habilidades de movimento corporal mais ágeis.
A estrutura ASAP é dividida em duas etapas principais. Primeiro, na etapa de pré-treinamento, os pesquisadores usam dados de vídeo de movimento humano, remapeando essas ações para um robô humanoide e, em seguida, treinando o robô para aprender essas ações em um ambiente simulado. No entanto, aplicar diretamente as estratégias treinadas no ambiente simulado a um robô real geralmente leva a uma queda no desempenho, devido às diferenças dinâmicas entre o ambiente simulado e o mundo real. Para resolver esse problema, a estrutura ASAP entra na segunda etapa - a etapa de pós-treinamento. Nesta etapa, os pesquisadores fazem o robô executar as ações pré-treinadas no mundo real e registram as trajetórias de movimento reais do robô.
Em seguida, a estrutura ASAP usa esses dados de movimento do mundo real para reproduzir o movimento do robô no simulador. Devido às diferenças entre o ambiente simulado e o mundo real, as trajetórias de movimento simuladas geralmente desviam das trajetórias de movimento reais. Essa diferença fornece aos pesquisadores um sinal de aprendizado. O ASAP treina um "modelo de ação diferencial", que pode aprender e compensar as diferenças dinâmicas entre a simulação e a realidade. Esse modelo é como um "corretor", capaz de corrigir as deficiências do simulador, aproximando-o das características físicas do mundo real. Finalmente, os pesquisadores integram esse "modelo de ação diferencial" no simulador e o usam para ajustar finamente a estratégia de rastreamento de movimento pré-treinada, para que o movimento do robô possa se adaptar melhor às características físicas do mundo real. A estratégia ajustada finamente pode ser implantada diretamente em robôs do mundo real, sem a necessidade do "modelo de ação diferencial".
Para verificar a eficácia da estrutura ASAP, os pesquisadores realizaram vários experimentos, incluindo a transferência entre diferentes simuladores e testes em um robô humanoide real Unitree G1. Os resultados experimentais mostraram que a estrutura ASAP melhorou significativamente a agilidade e a coordenação corporal total do robô em vários movimentos dinâmicos. Em comparação com os métodos tradicionais de identificação do sistema, randomização de domínio e aprendizado de diferenças dinâmicas, o ASAP pode reduzir significativamente o erro de rastreamento de movimento.
O sucesso da estrutura ASAP reside em sua capacidade de preencher efetivamente a lacuna entre o ambiente simulado e o mundo real, permitindo que robôs humanoides treinados em ambientes simulados demonstrem agilidade real no mundo real. Isso aponta para uma nova direção para o desenvolvimento de robôs humanoides mais flexíveis e multifuncionais.
Tecnologias-chave da estrutura ASAP:
Uso de dados de movimento humano para pré-treinamento: transformar movimentos ágeis humanos em objetivos de aprendizado para robôs, fornecendo dados de movimento de alta qualidade para robôs.
Treinamento do modelo de ação diferencial: aprendendo as diferenças entre o mundo real e o ambiente simulado, compensando dinamicamente as deficiências do simulador e melhorando a precisão da simulação.
Ajuste fino da estratégia baseado no modelo de ação diferencial: permite que a estratégia do robô se adapte às características físicas do mundo real, alcançando, finalmente, um desempenho de movimento superior.
A verificação experimental da estrutura ASAP mostra:
Na transferência entre simuladores, o ASAP pode reduzir significativamente o erro de rastreamento de movimento, superando outros métodos de referência.
Nos testes em robôs reais, o ASAP também pode melhorar significativamente o desempenho do movimento do robô, permitindo que o robô execute movimentos ágeis de alta dificuldade.
Esta pesquisa também investiga a fundo os fatores-chave para treinar o modelo de ação diferencial, incluindo o tamanho do conjunto de dados, a duração do treinamento e o peso da norma de ação. Além disso, os pesquisadores compararam diferentes estratégias de uso do modelo de ação diferencial, e finalmente confirmaram que o método de ajuste fino de aprendizado por reforço pode alcançar o melhor desempenho.
Embora a estrutura ASAP tenha alcançado progressos notáveis, ela ainda apresenta algumas limitações, como limitações de hardware, dependência de sistemas de captura de movimento e grande demanda por dados. As direções futuras de pesquisa podem incluir o desenvolvimento de arquiteturas de estratégia capazes de perceber danos de hardware, o uso de estimativa de pose sem rótulos ou fusão de sensores embarcados para reduzir a dependência de sistemas de captura de movimento e a exploração de técnicas de adaptação de modelos de ação diferencial mais eficientes.
O surgimento da estrutura ASAP traz novas esperanças para o campo da robótica humanoide. Ao resolver habilmente o problema das diferenças dinâmicas entre simulação e realidade, o ASAP permite que os robôs humanoides dominem habilidades de movimento mais ágeis e coordenadas, lançando uma base sólida para aplicações futuras generalizadas de robôs humanoides no mundo real.
Endereço do projeto: https://agile.human2humanoid.com/
Endereço do artigo: https://arxiv.org/pdf/2502.01143