Investigadores de la Universidad de Tokio en Japón, en colaboración con Alternative Machine, han logrado un gran avance: el desarrollo de Alter3, un sistema de robot humanoide capaz de mapear directamente comandos de lenguaje natural a acciones robóticas. Su modelo subyacente utiliza la tecnología GPT-4, permitiéndole realizar una variedad de tareas complejas, como tomarse una selfie o interpretar a un fantasma.
Este es uno de los crecientes resultados de la investigación que combina modelos básicos con sistemas robóticos. Aunque estos sistemas aún no son soluciones comerciales escalables, en los últimos años han impulsado el desarrollo de la robótica y muestran un enorme potencial.
Alter3 utiliza GPT-4 como modelo subyacente, recibiendo instrucciones en lenguaje natural que describen la acción o el escenario al que el robot debe responder. Primero, el modelo utiliza un "marco de agente" para planificar la secuencia de acciones necesarias para que el robot logre su objetivo. Segundo, a través de la codificación del agente, genera los comandos necesarios para que el robot ejecute cada paso. Dado que GPT-4 no ha sido entrenado con comandos de programación de Alter3, los investigadores utilizan su capacidad de aprendizaje contextual para adaptar su comportamiento a la API del robot.
Por lo tanto, la indicación (prompt) incluye una lista de comandos y un conjunto de ejemplos que muestran cómo usar cada comando. Luego, el modelo mapea cada paso a una o más instrucciones de la API para enviarlas al robot y que las ejecute.
Los investigadores añadieron una función que permite a los humanos proporcionar retroalimentación, como "levanta el brazo un poco más". Estas instrucciones se envían a otro agente GPT-4 que razona sobre el código, realiza las correcciones necesarias y devuelve la secuencia de acciones al robot. La receta de acción y el código mejorados se almacenan en una base de datos para su uso futuro.
Los investigadores realizaron varias pruebas en Alter3, incluyendo acciones cotidianas como tomarse una selfie y beber té, así como acciones de imitación como interpretar a un fantasma o una serpiente. También probaron la capacidad del modelo para manejar situaciones que requieren una planificación cuidadosa de las acciones. El amplio conocimiento de GPT-4 sobre el comportamiento y las acciones humanas permite la creación de planes de comportamiento más realistas para robots humanoides como Alter3. Los experimentos de los investigadores también demostraron que podían imitar emociones como la vergüenza y la alegría en el robot.
Puntos clave:
- 💡 Alter3 es el último robot humanoide que utiliza la tecnología GPT-4 para el razonamiento, capaz de mapear instrucciones de lenguaje natural directamente a las acciones del robot.
- 💡 Los investigadores aprovecharon la capacidad de aprendizaje contextual de GPT-4 para adaptar su comportamiento a la API del robot, permitiendo que el robot ejecute la secuencia de acciones necesaria.
- 💡 La adición de retroalimentación humana y memoria mejora el rendimiento de Alter3; los experimentos de los investigadores también demostraron que podían imitar emociones como la vergüenza y la alegría en el robot.