Das Forschungsinstitut für intelligente Industrie (AIR) der Tsinghua-Universität veröffentlichte am 24. Dezember 2024 das KI-Modell AutoDroid-V2, das die automatisierte Steuerung von Mobilgeräten optimieren soll. Durch den Einsatz kleiner Sprachmodelle wird die Effizienz der Bedienung per natürlicher Sprache deutlich verbessert.

Im Gegensatz zu traditionellen Ansätzen, die auf große Sprachmodelle (LLM) in der Cloud angewiesen sind, verwendet AutoDroid-V2 eine skriptbasierte Methode. Diese Innovation ermöglicht die effiziente Ausführung von Benutzeranweisungen auf dem Gerät selbst, reduziert die Abhängigkeit von Cloud-Diensten und verbessert so die Privatsphäre und Sicherheit erheblich. Gleichzeitig werden der Datenverbrauch auf der Benutzerseite und die Betriebskosten auf dem Server reduziert, was die breite Anwendung von Mobilgeräten fördert.

image.png

Vor dem Hintergrund des Aufstiegs großer Sprachmodelle und visueller Sprachmodelle in den letzten Jahren ist die Steuerung von Mobilgeräten über natürliche Sprachbefehle möglich geworden. Diese Technologien bieten neue Wege zur Lösung komplexer Benutzeraufgaben. Herkömmliche „schrittweise GUI-Agenten“-Methoden weisen jedoch einen hohen Datenverbrauch und Datenschutzrisiken auf, was die großflächige Implementierung behindert.

Die Innovation von AutoDroid-V2 liegt in der Fähigkeit, aus Benutzeranweisungen mehrstufige Skripte zu generieren, um mehrere GUI-Operationen auf einmal auszuführen. Diese Methode reduziert die Abfragefrequenz und den Ressourcenverbrauch erheblich und ermöglicht die Generierung und Ausführung von Aufgaben-Skripten direkt auf dem Benutzergerät. Im Offline-Modus erstellt das Modell eine Anwendungsdokumentation, um die spätere Skriptgenerierung vorzubereiten.

In Leistungstests wurde AutoDroid-V2 mit 226 Aufgaben auf 23 mobilen Anwendungen getestet. Im Vergleich zu Vorgängermodellen wie AutoDroid und SeeClick verbesserte sich die Aufgabenabschlussrate um 10,5 % bis 51,7 %. Darüber hinaus wurde der Verbrauch von Input- und Output-Token auf 1/43,5 bzw. 1/5,8 reduziert, und die Modell-Inferenzverzögerung verringerte sich auf 1/5,7 bis 1/13,4. Diese Ergebnisse zeigen die Effizienz und Zuverlässigkeit von AutoDroid-V2 in der Praxis.

Wichtigste Punkte:

🌟 AutoDroid-V2 ist ein neues KI-Modell der Tsinghua-Universität, das die Effizienz der Steuerung von Mobilgeräten durch natürliche Sprache verbessert.

🔒 Das Modell reduziert durch kleine Sprachmodelle die Abhängigkeit von Cloud-Diensten und erhöht die Privatsphäre und Sicherheit der Benutzer.

📈 Benchmark-Tests zeigen eine deutliche Verbesserung der Aufgabenabschlussrate und des Ressourcenverbrauchs bei AutoDroid-V2, was ein großes Anwendungspotenzial aufzeigt.