Mobile-Agent

Agente móvel multi-modal autônomo

Produto ComumProdutividadeAutônomoMulti-modal
O Mobile-Agent é um agente móvel multi-modal autônomo que utiliza a tecnologia de modelos de linguagem grandes multimodais (MLLM). Ele começa utilizando ferramentas de percepção visual para identificar e localizar com precisão elementos visuais e de texto na interface do aplicativo. Com base nesse ambiente visual percebido, ele planeja e decompõe de forma autônoma tarefas complexas, navegando em aplicativos móveis por meio de operações passo a passo. Diferentemente de soluções anteriores que dependiam de arquivos XML de aplicativos ou metadados do sistema móvel, o Mobile-Agent adota uma abordagem centrada na visão, apresentando maior adaptabilidade em diversos ambientes de operação móvel, eliminando assim a necessidade de personalização específica do sistema. Para avaliar o desempenho do Mobile-Agent, introduzimos o Mobile-Eval, um benchmark para avaliação de operações em dispositivos móveis. Com base no Mobile-Eval, realizamos uma avaliação abrangente do Mobile-Agent. Os resultados experimentais demonstram que o Mobile-Agent alcançou precisão e taxa de conclusão significativas. Mesmo sob instruções desafiadoras, como operações em múltiplos aplicativos, o Mobile-Agent ainda consegue concluir as tarefas solicitadas.
Abrir Site

Mobile-Agent Alternativas