O AppAgent é um framework de agente multimodal baseado em LLM (Large Language Model), projetado para operar aplicativos de smartphones. Simulando interações humanas por meio de um espaço de ações simplificado (como cliques e deslizamentos), ele permite a operação de aplicativos sem acesso ao backend do sistema. O agente aprende a usar novos aplicativos através de exploração autônoma ou observação de demonstrações humanas, criando um banco de conhecimento para executar tarefas complexas em diferentes aplicativos.