Des chercheurs de l'Université de Tokyo au Japon, en collaboration avec Alternative Machine, ont réalisé une percée majeure en développant Alter3, un système de robot humanoïde capable de mapper directement des commandes en langage naturel en actions robotiques. Son modèle sous-jacent utilise la technologie GPT-4, lui permettant d'effectuer une série de tâches complexes, telles que prendre un selfie ou imiter un fantôme.
Ceci fait partie des résultats de plus en plus nombreux de recherches combinant des modèles de base et des systèmes robotiques. Bien que ces systèmes ne soient pas encore des solutions commerciales évolutives, ils ont considérablement stimulé la recherche en robotique ces dernières années et présentent un potentiel énorme.
Alter3 utilise GPT-4 comme modèle sous-jacent, recevant des instructions en langage naturel décrivant l'action ou le contexte dans lequel le robot doit réagir. Premièrement, le modèle utilise un "cadre d'agent" pour planifier la séquence d'actions nécessaires au robot pour atteindre son objectif. Deuxièmement, en codant l'agent, il génère les commandes nécessaires à l'exécution de chaque étape par le robot. Comme GPT-4 n'a pas été entraîné sur les commandes de programmation d'Alter3, les chercheurs ont utilisé sa capacité d'apprentissage contextuel pour adapter son comportement à l'API du robot.
Par conséquent, l'invite comprend une liste de commandes et un ensemble d'exemples illustrant comment utiliser chaque commande. Le modèle mappe ensuite chaque étape sur une ou plusieurs commandes API à envoyer au robot pour exécution.
Les chercheurs ont ajouté une fonctionnalité permettant aux humains de fournir des commentaires, tels que "lever le bras un peu plus haut". Ces instructions sont envoyées à un autre agent GPT-4, qui raisonne sur le code, effectue les corrections nécessaires et renvoie la séquence d'actions au robot. La recette d'action et le code améliorés sont stockés dans une base de données pour une utilisation future.
Les chercheurs ont mené plusieurs tests sur Alter3, incluant des actions quotidiennes comme prendre un selfie et boire du thé, ainsi que des actions mimétiques comme imiter un fantôme ou un serpent. Ils ont également testé la capacité du modèle à gérer des situations nécessitant une planification d'actions minutieuse. La vaste connaissance de GPT-4 du comportement et des actions humaines permet de créer des plans d'action plus réalistes pour les robots humanoïdes comme Alter3. Les expériences des chercheurs ont également montré qu'ils pouvaient imiter des émotions comme la honte et la joie chez le robot.
Points clés :
- 💡 Alter3 est le dernier robot humanoïde utilisant la technologie GPT-4 pour le raisonnement, capable de mapper directement les instructions en langage naturel en actions robotiques.
- 💡 Les chercheurs ont utilisé la capacité d'apprentissage contextuel de GPT-4 pour adapter son comportement à l'API du robot, permettant ainsi au robot d'exécuter la séquence d'actions requise.
- 💡 L'ajout de retours humains et de mémoire améliore les performances d'Alter3. Les expériences des chercheurs ont également montré qu'ils pouvaient imiter des émotions comme la honte et la joie chez le robot.