Recentemente, a equipe de pesquisa do Sergey Levine no laboratório BAIR da Universidade da Califórnia, Berkeley, apresentou uma estrutura de aprendizado por reforço chamada HIL-SERL, projetada para resolver o desafio de robôs aprenderem habilidades operacionais complexas no mundo real.
Essa nova tecnologia combina demonstrações e correções humanas com algoritmos de aprendizado por reforço eficientes, permitindo que robôs dominem várias tarefas operacionais precisas e hábeis em apenas 1 a 2,5 horas, como manipulação dinâmica, montagem de precisão e colaboração com dois braços.
Anteriormente, ensinar robôs novas habilidades era trabalhoso, como ensinar uma criança teimosa a fazer a lição de casa – exigia ensino individualizado e correções repetidas. Ainda mais desafiador era o fato de que as situações do mundo real são complexas e variáveis, fazendo com que os robôs aprendessem lentamente, esquecessem rapidamente e, muitas vezes, falhassem.
A estrutura HIL-SERL é como contratar um "professor particular" para o robô, fornecendo não apenas um "material didático" detalhado, ou seja, demonstrações e correções humanas, mas também algoritmos de aprendizado eficientes para ajudá-lo a dominar habilidades rapidamente.
Com apenas algumas demonstrações, o robô consegue realizar várias operações de forma eficiente, desde brincar com blocos e virar panquecas até montar móveis e instalar placas de circuito – praticamente tudo!
Para que o robô aprenda mais rápido e melhor, o HIL-SERL introduz um mecanismo de correção de interação humano-robô. Em termos simples, quando o robô comete um erro, o operador humano pode intervir e corrigi-lo, enviando essas informações de correção de volta ao robô. Dessa forma, o robô aprende continuamente com seus erros, evitando repeti-los e tornando-se um verdadeiro especialista.
Após uma série de experimentos, o HIL-SERL demonstrou resultados excelentes. Em várias tarefas, o robô atingiu uma taxa de sucesso próxima a 100% em apenas 1 a 2,5 horas, e sua velocidade de operação foi quase duas vezes maior que antes.
Mais importante ainda, o HIL-SERL é o primeiro sistema do mundo real a usar aprendizado por reforço para realizar a coordenação de dois braços com base em entrada de imagem. Em outras palavras, ele permite que dois braços robóticos trabalhem juntos para realizar tarefas mais complexas, como montar correias dentadas, que exigem alta coordenação.
O surgimento do HIL-SERL não apenas demonstra o enorme potencial de aprendizado de robôs, mas também aponta o caminho para aplicações e pesquisas industriais futuras. Quem sabe, no futuro, cada um de nós terá um "aprendiz" robô em casa para nos ajudar com as tarefas domésticas, montar móveis e até mesmo jogar conosco – uma perspectiva empolgante!
Claro, o HIL-SERL também tem algumas limitações. Por exemplo, pode ser insuficiente para tarefas que exigem planejamento de longo prazo. Além disso, o HIL-SERL está atualmente sendo testado principalmente em ambientes de laboratório e ainda não foi validado em larga escala em cenários reais. No entanto, acredita-se que, com o avanço da tecnologia, esses problemas serão resolvidos gradualmente.
Endereço do artigo: https://hil-serl.github.io/static/hil-serl-paper.pdf
Endereço do projeto: https://hil-serl.github.io/