Forscher der Universität Tokio in Japan haben in Zusammenarbeit mit Alternative Machine einen Durchbruch erzielt und ein humanoides Robotersystem namens Alter3 entwickelt, das natürliche Sprachbefehle direkt in Roboteraktionen umwandeln kann. Das zugrunde liegende Modell basiert auf GPT-4 und kann eine Reihe komplexer Aufgaben ausführen, wie z. B. Selfies machen oder einen Geist darstellen.
Dies ist nur eines von vielen Forschungsergebnissen, die auf der Kombination von Basismodellen und Robotersystemen basieren. Obwohl diese Systeme noch keine skalierbaren kommerziellen Lösungen darstellen, haben sie in den letzten Jahren die Robotikforschung vorangetrieben und ein enormes Potenzial gezeigt.
Alter3 verwendet GPT-4 als Basismodell und empfängt natürliche Sprachbefehle, die Aktionen beschreiben oder Szenarien, auf die der Roboter reagieren soll. Zuerst plant das Modell mithilfe eines „Agenten-Frameworks“ eine Reihe von Schritten, die der Roboter zur Erreichung des Ziels ausführen muss. Zweitens generiert es über einen kodierten Agenten die Befehle, die der Roboter für jeden Schritt benötigt. Da GPT-4 nicht mit den Programmierbefehlen von Alter3 trainiert wurde, nutzen die Forscher seine Fähigkeit zum kontextuellen Lernen, um sein Verhalten an die API des Roboters anzupassen.
Daher enthält die Eingabeaufforderung (Prompt) eine Befehlslist und Beispiele, die zeigen, wie jeder Befehl verwendet wird. Das Modell ordnet dann jeden Schritt einem oder mehreren API-Befehlen zu, die an den Roboter zur Ausführung gesendet werden.
Die Forscher haben Funktionen hinzugefügt, die es Menschen ermöglichen, Feedback zu geben, z. B. „Hebe den Arm etwas höher“. Diese Anweisungen werden an einen weiteren GPT-4-Agenten gesendet, der den Code analysiert, die notwendigen Korrekturen vornimmt und die Aktionssequenz an den Roboter zurückgibt. Die verbesserte Aktionsvorschrift und der Code werden in einer Datenbank gespeichert und für die zukünftige Verwendung bereitgestellt.
Die Forscher führten mit Alter3 verschiedene Tests durch, darunter alltägliche Aktionen wie Selfies machen und Tee trinken, sowie Nachahmungsaktionen wie das Darstellen eines Geistes oder einer Schlange. Sie testeten auch die Fähigkeit des Modells, mit Situationen umzugehen, die eine sorgfältige Planung erfordern. GPT-4s umfassendes Wissen über menschliches Verhalten und Aktionen ermöglicht die Erstellung realistischerer Handlungspläne für humanoide Roboter wie Alter3. Die Experimente der Forscher zeigten auch, dass sie Emotionen wie Scham und Freude im Roboter nachahmen konnten.
Wichtigste Punkte:
- 💡 Alter3 ist der neueste humanoide Roboter, der GPT-4 zur Inferenz verwendet und natürliche Sprachbefehle direkt in Roboteraktionen umwandeln kann.
- 💡 Die Forscher nutzten die Fähigkeit von GPT-4 zum kontextuellen Lernen, um sein Verhalten an die API des Roboters anzupassen, sodass der Roboter die benötigten Schritte ausführen kann.
- 💡 Menschliches Feedback und das Speichern von Informationen verbessern die Leistung von Alter3. Die Experimente der Forscher zeigten auch, dass sie Emotionen wie Scham und Freude im Roboter nachahmen konnten.