Recentemente, o Instituto de Indústria Inteligente (AIR) da Universidade Tsinghua lançou, em 24 de dezembro de 2024, um modelo de IA chamado AutoDroid-V2, projetado para otimizar o controle automatizado de dispositivos móveis. O modelo, através da aplicação de modelos de linguagem pequenos, melhora significativamente a eficiência da operação por meio de linguagem natural pelo usuário.

O AutoDroid-V2 utiliza um método baseado em scripts, diferente do método tradicional que depende de grandes modelos de linguagem (LLMs) em nuvem. Esta inovação permite que o dispositivo execute instruções do usuário de forma eficiente, reduzindo a dependência de serviços em nuvem, resultando em melhorias significativas em privacidade e segurança. Simultâneamente, reduz o consumo de tráfego do lado do usuário e os custos operacionais do servidor, promovendo a ampla aplicação de dispositivos móveis.

image.png

No contexto do projeto, o surgimento de grandes modelos de linguagem e modelos de linguagem visual tornou possível controlar dispositivos móveis por meio de comandos de linguagem natural. Essas tecnologias oferecem novas maneiras de resolver tarefas complexas do usuário. No entanto, o método tradicional de "agente GUI gradual" apresenta problemas de alto consumo de tráfego e riscos de privacidade e segurança, criando obstáculos para a implantação em larga escala.

A inovação do AutoDroid-V2 reside em sua capacidade de gerar scripts de várias etapas com base nas instruções do usuário, executando várias operações de GUI de uma só vez. Este método reduz significativamente a frequência de consultas, reduz o consumo de recursos e permite a geração e execução de scripts de tarefas diretamente no dispositivo do usuário. No modo offline, o modelo constrói a documentação do aplicativo, preparando o terreno para a geração subsequente de scripts.

Em testes de desempenho, o AutoDroid-V2 realizou testes de referência em 226 tarefas em 23 aplicativos móveis. Em comparação com modelos anteriores, como AutoDroid e SeeClick, a taxa de conclusão da tarefa aumentou de 10,5% a 51,7%. Além disso, o consumo de tokens de entrada e saída foi reduzido para 1/43,5 e 1/5,8, respectivamente, e o atraso de inferência do modelo foi reduzido para 1/5,7 a 1/13,4 do original. Esses resultados demonstram a eficiência e confiabilidade do AutoDroid-V2 em aplicações reais.

Destaques:

🌟 AutoDroid-V2 é um novo modelo de IA lançado pela Universidade Tsinghua que melhora a eficiência do controle de linguagem natural em dispositivos móveis.

🔒 O modelo reduz a dependência de serviços em nuvem por meio de modelos de linguagem pequenos, melhorando a privacidade e a segurança do usuário.

📈 Os testes de referência mostram que o AutoDroid-V2 apresenta melhorias significativas na taxa de conclusão da tarefa e no consumo de recursos, demonstrando um forte potencial de aplicação.