In professionellen Umgebungen stehen grafische Benutzeroberflächen (GUI)-Agenten vor drei zentralen Herausforderungen. Erstens ist die Komplexität professioneller Anwendungen deutlich höher als bei allgemeiner Software, was ein tiefes Verständnis komplexer Layouts erfordert. Zweitens verfügen professionelle Tools oft über höhere Auflösungen, was zu kleineren Zielgrößen und damit zu einer geringeren Positionsgenauigkeit führt. Drittens sind Arbeitsabläufe oft von zusätzlichen Tools und Dokumenten abhängig, was die Komplexität der Bedienung erhöht. Diese Herausforderungen unterstreichen die Notwendigkeit, fortschrittlichere Benchmarks und Lösungen zu entwickeln, um die Leistung von GUI-Agenten in diesen anspruchsvollen Szenarien zu verbessern.
Derzeitige GUI-Lokalisierungsmodelle und Benchmarks erfüllen die Anforderungen professioneller Umgebungen nicht. Beispielsweise sind Tools wie ScreenSpot hauptsächlich für Aufgaben mit niedriger Auflösung konzipiert und es fehlt ihnen an Vielfalt, um reale Szenarien präzise zu simulieren. Modelle wie OS-Atlas und UGround weisen eine schlechte Rechenleistung auf, insbesondere bei kleinen Zielen oder reichhaltigen Benutzeroberflächen-Symbolen, und versagen oft. Darüber hinaus schränkt die fehlende mehrsprachige Unterstützung die Anwendung dieser Modelle in globalen Arbeitsabläufen ein. Diese Mängel unterstreichen die Notwendigkeit umfassenderer und realistischerer Benchmarks, um die Entwicklung in diesem Bereich voranzutreiben.
Um diese Probleme zu lösen, haben Forschungsteams der National University of Singapore, der East China Normal University und der Hong Kong Baptist University ScreenSpot-Pro vorgestellt, einen neuen Benchmark, der speziell für professionelle Umgebungen mit hoher Auflösung entwickelt wurde. Dieser Benchmark verfügt über einen Datensatz von 1.581 Aufgaben aus 23 Branchen, darunter Entwicklung, Kreativtools, CAD, wissenschaftliche Plattformen und Office-Suites. Er verwendet hochauflösende Vollbild-Visualisierungen und Experten-Annotationen, um Genauigkeit und Realismus zu gewährleisten. ScreenSpot-Pro bietet auch mehrsprachige Anleitungen, darunter Englisch und Chinesisch, um den Bewertungsumfang zu erweitern. Im Gegensatz zu früheren Ansätzen dokumentiert ScreenSpot-Pro reale Arbeitsabläufe, um die Erstellung hochwertiger Annotationen zu gewährleisten und so ein effektives Werkzeug für die umfassende Bewertung und Entwicklung von GUI-Lokalisierungsmodellen zu bieten.
Dieser Datensatz erfasst reale und herausfordernde Szenarien, basierend auf hochauflösenden Bildern, wobei die Zielbereiche durchschnittlich nur 0,07 % des gesamten Bildschirms ausmachen, was die Feinheit und Kleinheit von GUI-Elementen zeigt. Die Daten wurden von professionellen Anwendern mit umfangreicher Erfahrung in den jeweiligen Anwendungen gesammelt, wobei spezielle Tools die Genauigkeit der Annotationen gewährleisten. Darüber hinaus unterstützt der Datensatz mehrsprachige Funktionen, um die zweisprachige Fähigkeit zu testen, und enthält mehrere Arbeitsabläufe, um die Nuancen professioneller Aufgaben zu erfassen. Diese Eigenschaften machen ihn besonders geeignet, um die Genauigkeit und Flexibilität von GUI-Agenten zu bewerten und zu verbessern.
Die Analyse bestehender GUI-Lokalisierungsmodelle mit ScreenSpot-Pro zeigt deren erhebliche Unzulänglichkeiten bei der Verarbeitung professioneller Umgebungen mit hoher Auflösung. Die Genauigkeit von OS-Atlas-7B beträgt maximal 18,9 %. ReGround hingegen, das eine iterative Methode verwendet, verbesserte durch ein mehrstufiges Feintuning die Leistung auf 40,2 %. Die Erkennung kleiner Komponenten wie Symbole erwies sich als besonders schwierig, und zweisprachige Aufgaben unterstrichen die Grenzen der Modelle weiter. Diese Ergebnisse unterstreichen die Notwendigkeit, die Technologie zu verbessern, um das Kontextverständnis und die Anpassungsfähigkeit in komplexen GUI-Umgebungen zu stärken.
ScreenSpot-Pro setzt einen bahnbrechenden Benchmark für die Bewertung von GUI-Agenten in professionellen Umgebungen mit hoher Auflösung. Er adressiert die spezifischen Herausforderungen komplexer Arbeitsabläufe und bietet einen vielfältigen und präzisen Datensatz, um Innovationen in der GUI-Lokalisierung zu fördern. Dieser Beitrag wird die Grundlage für intelligentere und effizientere Agenten schaffen, die eine nahtlose Ausführung professioneller Aufgaben unterstützen und die Produktivität und Innovationskraft in verschiedenen Branchen deutlich steigern.
论文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
Daten|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
Wichtige Punkte:
🌟 ** Komplexität professioneller Anwendungen **: GUI-Agenten müssen mit hochkomplexen und hochauflösenden Schnittstellen professioneller Software umgehen.
🛠️ **ScreenSpot-Pro-Datensatz**: Enthält 1.581 Aufgaben, die 23 professionelle Anwendungen abdecken und mehrsprachige Bewertungen unterstützen.
📈 ** Verbesserung der Modellleistung **: Durch mehrstufiges Feintuning wird die Genauigkeit von GUI-Lokalisierungsmodellen in hochauflösenden Umgebungen verbessert.