Pesquisadores da Universidade de Tóquio, no Japão, em colaboração com a Alternative Machine, alcançaram um novo avanço, desenvolvendo o Alter3, um sistema de robô humanoide capaz de mapear comandos de linguagem natural diretamente para ações robóticas. Seu modelo de back-end utiliza a tecnologia GPT-4, permitindo a execução de uma série de tarefas complexas, como tirar selfies ou interpretar um fantasma.
Este é um dos muitos resultados crescentes de pesquisas que combinam modelos básicos com sistemas robóticos. Embora esses sistemas ainda não tenham alcançado soluções comerciais escaláveis, nos últimos anos, eles impulsionaram o desenvolvimento da pesquisa em robótica e demonstram um enorme potencial.
O Alter3 utiliza a tecnologia GPT-4 como modelo de back-end, recebendo instruções em linguagem natural que descrevem ações ou cenários aos quais o robô deve reagir. Primeiro, o modelo usa uma "estrutura de agente" para planejar uma série de etapas necessárias para o robô atingir seu objetivo. Em segundo lugar, através da codificação do agente, são gerados os comandos necessários para o robô executar cada etapa. Como o GPT-4 não foi treinado com comandos de programação do Alter3, os pesquisadores utilizaram sua capacidade de aprendizado contextual para adaptar seu comportamento à API do robô.
Portanto, o prompt inclui uma lista de comandos e um conjunto de exemplos de como usar cada comando. Então, o modelo mapeia cada etapa para um ou mais comandos de API para serem enviados ao robô para execução.
Os pesquisadores adicionaram uma funcionalidade que permite que os humanos forneçam feedback, como "levante o braço um pouco mais". Essas instruções são enviadas a outro agente GPT-4, que raciocina sobre o código, faz as correções necessárias e retorna a sequência de ações para o robô. A receita de ação e o código aprimorados são armazenados em um banco de dados para uso futuro.
Os pesquisadores realizaram vários testes no Alter3, incluindo ações cotidianas, como tirar selfies e tomar chá, e ações de imitação, como interpretar um fantasma ou uma cobra. Eles também testaram a capacidade do modelo de lidar com situações que exigem um planejamento cuidadoso das ações. O amplo conhecimento do GPT-4 sobre comportamento e ações humanas permite a criação de planos de ação mais realistas para robôs humanoides como o Alter3. Os experimentos dos pesquisadores também mostraram que eles conseguiram imitar emoções como vergonha e alegria no robô.
Destaques:
- 💡 O Alter3 é o mais recente robô humanoide a usar a tecnologia GPT-4 para raciocínio, capaz de mapear instruções de linguagem natural diretamente para ações robóticas.
- 💡 Os pesquisadores utilizaram a capacidade de aprendizado contextual do GPT-4 para adaptar seu comportamento à API do robô, permitindo que o robô execute a série de etapas necessárias.
- 💡 A adição de feedback humano e memória melhora o desempenho do Alter3; os experimentos dos pesquisadores também mostraram que eles conseguiram imitar emoções como vergonha e alegria no robô.