O Google está treinando seus robôs com o Gemini AI para melhorar suas habilidades de navegação e conclusão de tarefas.

Em um novo artigo de pesquisa, a equipe de robótica do DeepMind detalha como o longo contexto da janela do Gemini 1.5 Pro facilita a interação com o robô RT-2 usando comandos de linguagem natural. Através de vídeos de tours em áreas específicas, os pesquisadores usaram o Gemini 1.5 Pro para permitir que o robô "assistisse" aos vídeos para entender o ambiente, permitindo que ele executasse comandos com base no que observou, como guiar o usuário a uma tomada para carregar seu dispositivo.

image.png

O DeepMind afirma que os robôs equipados com o Gemini executaram com sucesso mais de 50 comandos de usuários em uma área operacional de mais de 9.000 pés quadrados, com uma taxa de sucesso de 90%.

Além disso, os pesquisadores descobriram que o Gemini 1.5 Pro permite que os robôs planejem como concluir comandos, não se limitando apenas à navegação. Por exemplo, quando um usuário pergunta ao robô se ele tem sua bebida favorita em uma mesa com várias latas de refrigerante, o Gemini permite que o robô saiba que deve ir até a geladeira para verificar e relatar o resultado ao usuário. O DeepMind afirma que irá investigar esses resultados mais a fundo.

De acordo com o artigo de pesquisa, embora a demonstração em vídeo fornecida pelo Google seja impressionante, o processamento desses comandos pelo robô leva de 10 a 30 segundos, como indicado no artigo. Embora possamos levar algum tempo para compartilhar nossas casas com robôs de mapeamento ambiental mais avançados, pelo menos esses robôs podem ser capazes de nos ajudar a encontrar nossas chaves ou carteiras perdidas.

Destaques:

🤖 Gemini AI treina robôs para melhorar a navegação e a conclusão de tarefas

🧠 Gemini 1.5 Pro permite que os robôs executem comandos de linguagem natural

🔍 A pesquisa descobriu que o Gemini permite que os robôs planejem a execução de comandos além da navegação