マイクロソフト、OmniParser V2.0を発表：スクリーンショットをLLMが処理可能な構造化形式に変換

マイクロソフトは最近、ユーザーインターフェース（UI）のスクリーンショットを構造化されたフォーマットに変換することを目的とした新しい解析ツール、OmniParser V2.0 をリリースしました。OmniParser は、大規模言語モデル（LLM）ベースの UI エージェントのパフォーマンスを向上させ、ユーザーが画面上の情報をより良く理解し操作するのに役立ちます。

このツールのトレーニングデータセットには、インタラクティブなアイコン検出データセットが含まれています。このデータセットは、人気のあるWebサイトから厳選され、自動的に注釈が付けられており、クリック可能で操作可能な領域が強調表示されています。さらに、各UI要素とその対応する機能を組み合わせることを目的としたアイコン記述データセットもあります。

V2.0バージョンでは、OmniParserが大幅に改良され、更新されたデータセットはより大きく、よりクリーンになり、アイコンの説明と位置特定の精度は60％向上しました。テストによると、このバージョンの平均遅延も大幅に短縮され、A100デバイスでは約0.6秒/フレーム、単一の4090グラフィックカードでは0.8秒/フレームです。パフォーマンス面では、OmniParserはScreenSpot Proテストで平均39.6の精度を達成しました。

ユーザーはOmniToolというツールを使用してWindows 11仮想マシンを制御できます。OmniToolとOmniParserを組み合わせることで、ユーザーは適切なビジュアルモデルを選択することもできます。現在のOmniToolは、OpenAIの複数のバージョン、DeepSeek（R1）、Qwen（2.5VL）、Anthropic Computer Useなど、さまざまな大規模言語モデルをサポートしており、ユーザーはさまざまな操作を簡単に行うことができます。

OmniParserは、非構造化のスクリーンショット画像を、インタラクティブな領域の位置やアイコンの潜在的な機能の説明を含む、構造化された要素のリストに変換することを目的としています。このツールを使用するユーザーは、OmniParserは情報を抽出できますが、最終的な判断はユーザー自身が行う必要があるため、基本的な分析能力と批判的思考能力が必要です。このツールは、PCや携帯電話のインターフェースなど、さまざまな種類のスクリーンショットに使用でき、適応性が高いです。

ただし、OmniParserの限界にも注意が必要です。このツールは入力内の有害なコンテンツを検出しません。そのため、ユーザーは入力に有害な情報が含まれていないことを確認するために注意する必要があります。また、OmniParserはスクリーンショットをテキストに変換するだけですが、操作可能なグラフィカルユーザーインターフェースエージェントを構築するために使用できます。開発者は、OmniParserを使用してエージェントを構築および運用する際に、安全基準と倫理規範に従う必要があります。

モデル:https://huggingface.co/microsoft/OmniParser-v2.0

プロジェクト:https://github.com/microsoft/OmniParser/tree/master

要点：
🔍 OmniParser V2.0は、UIスクリーンショットを構造化された情報に変換し、ユーザー操作体験を向上させるインテリジェントな解析ツールです。
⚡ 新バージョンは大幅に改良され、平均遅延は0.6秒/フレームに短縮され、精度は39.6％に達しました。
🔐 使用する際は、入力内容の安全性に注意し、開発者は安全基準と倫理規範に従う必要があります。