Eureka

Algoritmo de diseño de recompensas de nivel humano, implementado mediante la codificación de modelos lingüísticos grandes.

Producto ComúnProgramaciónDiseño de recompensasAprendizaje por refuerzo
Eureka es un algoritmo de diseño de recompensas de nivel humano implementado mediante la codificación de modelos lingüísticos grandes. Aprovecha la capacidad de generación de muestras cero, codificación y mejora contextual de modelos lingüísticos de vanguardia (como GPT-4) para optimizar evolutivamente el código de recompensas. Las recompensas generadas se pueden utilizar para adquirir habilidades complejas mediante aprendizaje por refuerzo. Las funciones de recompensa generadas por Eureka superan a las diseñadas por expertos humanos en 29 entornos de aprendizaje por refuerzo de código abierto, incluyendo 10 morfologías robóticas diferentes. Eureka también puede mejorar flexiblemente las funciones de recompensa para aumentar la calidad y seguridad de las recompensas generadas. Combinado con el aprendizaje por currículo, utilizando funciones de recompensa de Eureka, demostramos por primera vez que una mano Shadow simulada puede dominar la habilidad de hacer girar un bolígrafo, manipulándolo hábilmente y a alta velocidad en un círculo.
Abrir sitio web

Eureka Situación del tráfico más reciente

Total de visitas mensuales

3001

Tasa de rebote

74.62%

Páginas promedio por visita

1.1

Duración promedio de la visita

00:00:01

Eureka Tendencia de visitas

Eureka Distribución geográfica de las visitas

Eureka Fuentes de tráfico

Eureka Alternativas