専門環境において、グラフィカルユーザーインターフェース(GUI)エージェントは3つの主要な課題に直面しています。まず、専門アプリケーションは一般的なソフトウェアよりもはるかに複雑で、複雑なレイアウトの深い理解が必要です。次に、専門ツールは通常、解像度が高いため、ターゲットサイズが小さくなり、位置特定の精度が低下します。最後に、ワークフローは多くの場合、追加のツールやドキュメントに依存しており、操作の複雑さが増します。これらの課題は、これらの厳しい状況におけるGUIエージェントのパフォーマンス向上のための、より高度なベンチマークとソリューションの開発の必要性を浮き彫りにしています。
現在のGUI位置特定モデルとベンチマークは、専門環境の要件を満たしていません。例えば、ScreenSpotなどのツールは、低解像度のタスクを対象として設計されており、現実的な状況を正確にシミュレートできる多様性に欠けています。一方、OS-AtlasやUGroundなどのモデルは計算効率が悪く、特にターゲットが小さい場合やインターフェースのアイコンが多い場合に、機能不全を起こすことがよくあります。さらに、多言語サポートの欠如も、これらのモデルの世界的なワークフローへの適用を制限しています。これらの欠点は、この分野の発展を促進するための、より包括的で現実的なベンチマークの必要性をさらに強調しています。
これらの問題を解決するために、シンガポール国立大学、華東師範大学、香港浸会大学の研究チームは、高解像度の専門環境向けに特注された新しいベンチマークであるScreenSpot-Proを発表しました。このベンチマークには、開発、クリエイティブツール、CAD、科学プラットフォーム、オフィススイートなど、23の業界から1,581個のタスクデータセットが含まれています。高解像度の全画面表示を採用し、専門家の注釈によって正確性と現実性が確保されています。ScreenSpot-Proは、英語と中国語を含む多言語ガイドを提供し、評価範囲を拡大しています。従来とは異なり、ScreenSpot-Proは実際のワークフローを文書化し、高品質な注釈の作成を保証することで、GUI位置特定モデルの包括的な評価と開発のための効果的なツールを提供しています。
このデータセットは、現実的で困難な状況を捉えており、高解像度の画像に基づいており、ターゲット領域は平均で画面全体のわずか0.07%しか占めていません。これは、GUI要素の微細さと小型化を示しています。データは、関連アプリケーションで豊富な経験を持つ専門ユーザーによって収集され、専用のツールを使用して注釈の正確性が確保されています。さらに、このデータセットは多言語機能をサポートしており、バイリンガル能力のテストが容易になり、複数のワークフローが含まれているため、専門的なタスクの微妙な違いを捉えることができます。これらの特徴により、GUIエージェントの精度と柔軟性の評価と向上に特に役立ちます。
ScreenSpot-Proを用いた既存のGUI位置特定モデルの分析では、高解像度の専門環境での処理能力が著しく不足していることが示されました。OS-Atlas-7Bの精度は最高でも18.9%でした。しかし、反復的な方法を採用したReGroundは、複数ステップの方法による微調整により、性能を向上させ、40.2%の精度を達成しました。アイコンなどの小型コンポーネントの認識は著しく困難であり、バイリンガルタスクはさらにモデルの限界を浮き彫りにしました。これらの発見は、複雑なGUI環境におけるコンテキストの理解と適応能力を高めるための技術の改善の必要性を強調しています。
ScreenSpot-Proは、高解像度の専門環境におけるGUIエージェントの評価のための画期的なベンチマークを設定します。複雑なワークフローにおける具体的な課題に対処し、GUI位置特定の革新を導くための多様で正確なデータセットを提供します。この貢献は、よりスマートで効率的なエージェントの基礎を築き、専門的なタスクのシームレスな実行をサポートし、各業界の生産性と創造性を大幅に向上させるでしょう。
論文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
データ:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
要点:
🌟 ** 専門アプリケーションの複雑性 **:GUIエージェントは、高複雑性と高解像度の専門ソフトウェアインターフェースを処理する必要があります。
🛠️ **ScreenSpot-Proデータセット**:1,581個のタスクを含み、23の専門アプリケーションを網羅し、多言語評価をサポートしています。
📈 ** モデル性能の向上**:複数ステップの微調整により、高解像度環境におけるGUI位置特定モデルの精度が向上しました。