Handys, Tablets, Computer, Fernseher – immer mehr Bildschirme, immer komplexere Bedienung. Fühlen Sie sich auch überfordert? Apple hat kürzlich eine Bombe platzen lassen – Ferret-UI2, ein extrem leistungsstarkes UI-Verständnismodell, das angeblich die Branche revolutionieren soll!

Das ist kein leeres Versprechen. Ferret-UI2 zielt darauf ab, ein wahrer Allrounder zu sein und Benutzeroberflächen auf verschiedenen Plattformen zu verstehen. Egal ob iPhone, Android, iPad, Webseite oder AppleTV – es meistert alles mit Leichtigkeit.

image.png

Ein Highlight von Ferret-UI2 ist die Unterstützung vieler Plattformen. Im Gegensatz zu Ferret-UI, das sich auf mobile Plattformen beschränkt, versteht Ferret-UI2 Benutzeroberflächen von Tablets, Webseiten und Smart-TVs. Diese plattformübergreifende Unterstützung ermöglicht die Anpassung an das heutige vielfältige Geräte-Ökosystem und bietet Nutzern ein breiteres Anwendungsspektrum.

image.png

Um die UI-Wahrnehmung zu verbessern, verwendet Ferret-UI2 eine dynamische, hochauflösende Bildcodierungstechnologie und eine erweiterte Methode namens „adaptives Raster“. Dadurch behält Ferret-UI2 die Wahrnehmung auch bei der ursprünglichen Auflösung von UI-Screenshots bei und kann visuelle Elemente und deren Beziehungen genauer erkennen.

image.png

Ferret-UI2 nutzt außerdem hochwertige Trainingsdaten, um grundlegende und fortgeschrittene Aufgaben zu erlernen. Bei grundlegenden Aufgaben wandelt Ferret-UI2 einfache Referenz- und Positionsdaten in Dialogform um, sodass das Modell ein grundlegendes Verständnis verschiedener UI-Bildschirme aufbauen kann. Für anspruchsvollere Aufgaben, die stärker auf die Benutzererfahrung ausgerichtet sind, verwendet Ferret-UI2 die **auf GPT-4o basierende Technik „Marken-Set-Visual-Prompting“**, um Trainingsdaten zu generieren und ersetzt einfache Klickbefehle der vorherigen Methoden durch schrittweise, benutzerzentrierte Interaktionen.

Zur Bewertung der Leistung von Ferret-UI2 erstellten die Forscher 45 Benchmark-Tests auf fünf Plattformen, darunter sechs grundlegende und drei fortgeschrittene Aufgaben pro Plattform. Zusätzlich wurden öffentliche Benchmarks wie GUIDE und GUI-World verwendet. Die Ergebnisse zeigen, dass Ferret-UI2 in allen getesteten Benchmarks Ferret-UI übertrifft, insbesondere bei fortgeschrittenen Aufgaben deutliche Fortschritte erzielt und seine Vielseitigkeit bei der Bearbeitung plattformübergreifender UI-Verständnisaufgaben unter Beweis stellt.

Ablationsstudien zeigen weiter, dass sowohl die Architekturverbesserungen als auch die Verbesserungen des Datensatzes zur Leistungssteigerung beigetragen haben, wobei der neue Datensatz einen deutlich größeren Einfluss auf schwierigere Aufgaben hat. Ferret-UI2 zeigt außerdem eine hervorragende Leistung beim plattformübergreifenden Transferlernen, insbesondere eine gute Generalisierung zwischen iPhone, iPad und Android-Plattformen.

Modell-Adresse: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

Paper-Adresse: https://arxiv.org/pdf/2410.18967