Mobile-Agent

Autonomer multimodaler mobiler Geräteagent

Normales ProduktProduktivitätautonommultimodal
Mobile-Agent ist ein autonomer, multimodaler mobiler Geräteagent, der die Technologie großer multimodaler Sprachmodelle (MLLM) nutzt. Er identifiziert und lokalisiert zunächst mithilfe visueller Wahrnehmungstools visuelle und textuelle Elemente in der Benutzeroberfläche mobiler Anwendungen präzise. Basierend auf der wahrgenommenen visuellen Umgebung plant und zerlegt er selbstständig komplexe Aufgaben und steuert mobile Anwendungen durch schrittweise Aktionen. Im Gegensatz zu bisherigen Lösungen, die auf XML-Dateien von Anwendungen oder Metadaten des mobilen Systems angewiesen sind, ist Mobile-Agent visuell zentriert und passt sich an verschiedene mobile Betriebsumgebungen besser an, wodurch die Notwendigkeit einer systemspezifischen Anpassung entfällt. Zur Bewertung der Leistung von Mobile-Agent haben wir Mobile-Eval eingeführt, einen Benchmark zur Bewertung mobiler Geräteaktionen. Basierend auf Mobile-Eval haben wir Mobile-Agent umfassend evaluiert. Die Ergebnisse zeigen eine bemerkenswerte Genauigkeit und Abschlussrate. Selbst bei anspruchsvollen Anweisungen, beispielsweise bei Aktionen über mehrere Anwendungen hinweg, kann Mobile-Agent die Anforderungen erfüllen.
Website öffnen

Mobile-Agent Alternativen