Récemment, l'Institut de recherche sur l'industrie intelligente (AIR) de l'Université Tsinghua a publié, le 24 décembre 2024, un modèle d'IA nommé AutoDroid-V2, visant à optimiser le contrôle automatisé des appareils mobiles. Ce modèle, grâce à l'utilisation de petits modèles linguistiques, améliore considérablement l'efficacité des opérations effectuées par les utilisateurs via le langage naturel.

AutoDroid-V2 utilise une méthode basée sur des scripts, contrairement aux méthodes traditionnelles qui reposent sur de grands modèles linguistiques (LLM) cloud. Cette innovation permet aux appareils d'exécuter efficacement les instructions des utilisateurs, réduisant ainsi la dépendance aux services cloud et améliorant ainsi considérablement la confidentialité et la sécurité. Simultanément, cela diminue la consommation de trafic côté utilisateur et les coûts de fonctionnement côté serveur, favorisant ainsi l'utilisation généralisée des appareils mobiles.

image.png

En termes de contexte du projet, l'essor récent des grands modèles linguistiques et des modèles linguistiques visuels a rendu possible le contrôle des appareils mobiles via des commandes en langage naturel. Ces technologies offrent de nouvelles voies pour résoudre des tâches complexes pour les utilisateurs. Cependant, les méthodes traditionnelles d'"agents GUI progressifs" présentent des inconvénients tels qu'une forte consommation de trafic et des risques pour la confidentialité et la sécurité, ce qui entrave leur déploiement à grande échelle.

L'innovation d'AutoDroid-V2 réside dans sa capacité à générer des scripts multi-étapes à partir des instructions de l'utilisateur, permettant ainsi l'exécution simultanée de plusieurs opérations GUI. Cette méthode réduit considérablement la fréquence des requêtes, diminue la consommation de ressources et permet de générer et d'exécuter des scripts de tâches directement sur l'appareil de l'utilisateur. En mode hors ligne, le modèle construit une documentation de l'application, jetant les bases de la génération ultérieure de scripts.

Lors des tests de performance, AutoDroid-V2 a subi des tests de référence sur 23 applications mobiles pour 226 tâches. Comparé aux modèles précédents, tels qu'AutoDroid et SeeClick, le taux de réussite des tâches a été amélioré de 10,5 % à 51,7 %. De plus, la consommation de jetons d'entrée et de sortie a été réduite respectivement à 1/43,5 et 1/5,8, et le délai d'inférence du modèle a été réduit de 5,7 à 13,4 fois. Ces résultats montrent l'efficacité et la fiabilité d'AutoDroid-V2 dans les applications réelles.

Points clés :

🌟 AutoDroid-V2 est un nouveau modèle d'IA développé par l'Université Tsinghua, améliorant l'efficacité du contrôle des appareils mobiles par le langage naturel.

🔒 Ce modèle, grâce à des petits modèles linguistiques, réduit la dépendance aux services cloud, renforçant ainsi la confidentialité et la sécurité des utilisateurs.

📈 Les tests de référence montrent qu'AutoDroid-V2 présente des améliorations significatives en termes de taux de réussite des tâches et de consommation de ressources, démontrant un fort potentiel d'application.