DigiRL
Treina agentes inteligentes para controlar dispositivos em ambientes do mundo real usando aprendizado por reforço autônomo.
Produto ComumProgramaçãoAprendizado por ReforçoAprendizado Autônomo
DigiRL é um algoritmo inovador de aprendizado por reforço online usado para treinar agentes inteligentes capazes de controlar dispositivos em ambientes de campo. Ele resolve tarefas abertas e do mundo real do Android por meio de um modelo de avaliação de valor autônomo (VLM). As principais vantagens do DigiRL incluem a capacidade de aproveitar conjuntos de dados offline não ótimos existentes e encorajar o agente a aprender com seus próprios sucessos e erros por meio do aprendizado por reforço offline-to-online. O modelo usa uma função de valor de nível de instrução para construir implicitamente um currículo automático, priorizando as tarefas mais valiosas para o agente, e uma função de valor de nível de etapa para selecionar ações vantajosas que contribuem para o objetivo na trajetória.