Eureka
Algorithmus zur Belohnungsgestaltung auf menschlichem Niveau, implementiert durch die Kodierung großer Sprachmodelle.
Normales ProduktProgrammierungBelohnungsdesignVerstärkungslernen
Eureka ist ein Algorithmus zur Belohnungsgestaltung auf menschlichem Niveau, der durch die Kodierung großer Sprachmodelle implementiert wird. Er nutzt die Fähigkeiten aktueller Sprachmodelle (wie GPT-4) zur Null-Shot-Generierung, zum Code-Schreiben und zur Kontextverbesserung, um Belohnungscodes evolutionär zu optimieren. Die generierten Belohnungen können verwendet werden, um komplexe Fähigkeiten durch Verstärkungslernen zu erlernen. Die von Eureka generierten Belohnungsfunktionen übertreffen in 29 Open-Source-Umgebungen für Verstärkungslernen, darunter 10 verschiedene Robotermorphologien, die von menschlichen Experten entworfenen Belohnungsfunktionen. Eureka kann außerdem Belohnungsfunktionen flexibel verbessern, um die Qualität und Sicherheit der generierten Belohnungen zu steigern. In Kombination mit Curriculum Learning zeigen wir mithilfe von Eureka-Belohnungsfunktionen erstmalig, dass eine simulierte Shadow Hand in der Lage ist, den Trick des Stiftedrehens auszuführen und den Stift schnell und gekonnt in einem Kreis zu manipulieren.
Eureka Neueste Verkehrssituation
Monatliche Gesamtbesuche
3001
Absprungrate
74.62%
Durchschnittliche Seiten pro Besuch
1.1
Durchschnittliche Besuchsdauer
00:00:01