OmniParser
純粋なビジュアルベースのグラフィカルユーザーインターフェース(GUI)代理パーサー
一般製品生産性ビジュアル言語モデルユーザーインターフェース解析
OmniParserは、マイクロソフト研究チームが開発した、ユーザーインターフェースのスクリーンショットを解析する手法です。インタラクティブなアイコンを認識し、スクリーンショット内の様々な要素の意味を理解することで、ビジュアル言語モデル(GPT-4Vなど)による正確なインターフェース操作生成能力を大幅に向上させます。精緻に調整された検出モデルと記述モデルにより、スクリーンショット内のインタラクティブな領域を解析し、機能的な意味を抽出することで、複数のベンチマークテストにおいてベースラインモデルを上回りました。OmniParserはプラグインとして機能し、他のビジュアル言語モデルと連携して、その性能を向上させることができます。
OmniParser 最新のトラフィック状況
月間総訪問数
934048
直帰率
53.20%
平均ページ/訪問
2.7
平均訪問時間
00:02:01