Google está entrenando a sus robots con Gemini AI para mejorar su capacidad de navegación y realización de tareas.
El equipo de robótica de DeepMind detalla en un nuevo artículo de investigación cómo utiliza la ventana de contexto largo de Gemini 1.5 Pro para facilitar la interacción de los usuarios con el robot RT-2 mediante instrucciones en lenguaje natural. A través de recorridos en video de áreas específicas, los investigadores utilizaron Gemini 1.5 Pro para que el robot "viera" el video y comprendiera el entorno, permitiéndole ejecutar comandos basados en lo observado, como guiar al usuario a un enchufe para cargarse.
DeepMind afirma que los robots equipados con Gemini lograron ejecutar con éxito más de 50 instrucciones de usuario en un área de operación de más de 9000 pies cuadrados, con una tasa de éxito del 90%.
Además, los investigadores descubrieron que Gemini 1.5 Pro permite a los robots planificar cómo completar las instrucciones, no limitándose solo a la navegación. Por ejemplo, si un usuario pregunta si hay su bebida favorita en una mesa con varias latas de refresco, Gemini permite al robot saber que debe ir al refrigerador a comprobarlo y luego informar al usuario del resultado. DeepMind indica que investigará más a fondo estos resultados.
Según el artículo de investigación, aunque la demostración en video proporcionada por Google es impresionante, el robot necesita entre 10 y 30 segundos para procesar estas instrucciones. Aunque puede que tardemos un tiempo en compartir nuestros hogares con robots de mapeo ambiental más avanzados, al menos estos robots podrían ser capaces de ayudarnos a encontrar nuestras llaves o billeteras perdidas.
Puntos clave:
🤖 Gemini AI entrena robots para mejorar la navegación y la realización de tareas.
🧠 Gemini 1.5 Pro permite a los robots ejecutar instrucciones en lenguaje natural.
🔍 La investigación muestra que Gemini permite a los robots planificar la ejecución de instrucciones más allá de la navegación.