O rápido desenvolvimento do aprendizado profundo depende de conjuntos de dados, modelos e poder computacional em larga escala. Em processamento de linguagem natural e visão computacional, os pesquisadores descobriram uma relação de lei de potência entre o desempenho do modelo e a escala de dados. No entanto, no campo da robótica, especialmente na manipulação robótica, ainda não foi estabelecida uma lei de escala semelhante.
Uma equipe de pesquisa da Universidade Tsinghua publicou recentemente um artigo explorando a lei de escala de dados no aprendizado por imitação de robôs e propondo uma estratégia de coleta de dados eficiente que coletou dados suficientes em apenas uma tarde, permitindo que a estratégia atingisse uma taxa de sucesso de aproximadamente 90% em novos ambientes e novos objetos.
Os pesquisadores dividiram a capacidade de generalização em duas dimensões: generalização ambiental e generalização de objetos. Eles coletaram dados de demonstração humana usando uma pinça manual em vários ambientes e objetos diferentes e usaram uma estratégia de difusão para modelar esses dados. Os pesquisadores focaram inicialmente em duas tarefas: despejar água e colocar o mouse. Ao analisar como o desempenho da estratégia em novos ambientes ou novos objetos muda com o aumento do número de ambientes ou objetos de treinamento, eles resumiram a lei de escala de dados.
Os resultados da pesquisa mostraram:
A capacidade de generalização da estratégia para novos objetos, novos ambientes ou ambos apresenta uma relação de lei de potência com o número de objetos de treinamento, ambientes de treinamento ou pares ambiente-objeto de treinamento.
Aumentar a diversidade de ambientes e objetos é mais eficaz do que aumentar o número de demonstrações para cada ambiente ou objeto.
Coletar dados em tantos ambientes quanto possível (por exemplo, 32 ambientes), com um objeto único em cada ambiente e 50 demonstrações, pode treinar uma estratégia de alta capacidade de generalização (taxa de sucesso de 90%), permitindo que ela opere em novos ambientes e objetos.
Com base nessas leis de escala de dados, os pesquisadores propuseram uma estratégia eficiente de coleta de dados. Eles sugerem coletar dados em tantos ambientes diferentes quanto possível, usando apenas um objeto único em cada ambiente. Quando o número total de pares ambiente-objeto atinge 32, geralmente é suficiente para treinar uma estratégia capaz de operar em novos ambientes e interagir com objetos nunca vistos antes. Para cada par ambiente-objeto, recomenda-se coletar 50 demonstrações.
Para verificar a aplicabilidade generalizada da estratégia de coleta de dados, os pesquisadores a aplicaram a duas novas tarefas: dobrar uma toalha e desconectar um carregador. Os resultados mostraram que a estratégia também foi capaz de treinar estratégias de alta capacidade de generalização nessas duas novas tarefas.
Este estudo mostra que, com um investimento relativamente moderado de tempo e recursos, é possível aprender estratégias de tarefa única que podem ser implantadas em zero-shot em qualquer ambiente e objeto. Para apoiar ainda mais os esforços dos pesquisadores nessa área, a equipe da Tsinghua publicou seu código, dados e modelos, na esperança de inspirar pesquisas adicionais na área, culminando em robôs genéricos capazes de resolver problemas complexos em um mundo aberto.
Endereço do artigo: https://arxiv.org/pdf/2410.18647