OmniParser

純粋なビジュアルベースのグラフィカルユーザーインターフェース(GUI)代理パーサー

一般製品生産性ビジュアル言語モデルユーザーインターフェース解析
OmniParserは、マイクロソフト研究チームが開発した、ユーザーインターフェースのスクリーンショットを解析する手法です。インタラクティブなアイコンを認識し、スクリーンショット内の様々な要素の意味を理解することで、ビジュアル言語モデル(GPT-4Vなど)による正確なインターフェース操作生成能力を大幅に向上させます。精緻に調整された検出モデルと記述モデルにより、スクリーンショット内のインタラクティブな領域を解析し、機能的な意味を抽出することで、複数のベンチマークテストにおいてベースラインモデルを上回りました。OmniParserはプラグインとして機能し、他のビジュアル言語モデルと連携して、その性能を向上させることができます。
ウェブサイトを開く

OmniParser 最新のトラフィック状況

月間総訪問数

934048

直帰率

53.20%

平均ページ/訪問

2.7

平均訪問時間

00:02:01

OmniParser 訪問数の傾向

OmniParser 訪問地理的分布

OmniParser トラフィックソース

OmniParser 代替品