スマホ、タブレット、パソコン、テレビ…画面が増え、操作が複雑になり、混乱していませんか?アップルが最近、強力な武器を投入しました——Ferret-UI2。UIを理解する超強力なモデルで、業界を統一すると謳っています!

これは単なる誇張ではありません。Ferret-UI2の目標は、真の万能選手になることです。iPhone、Android、iPad、ウェブ、AppleTVなど、あらゆるプラットフォームのユーザーインターフェースを理解できます。

image.png

Ferret-UI2の大きな特徴は、マルチプラットフォームに対応している点です。モバイルプラットフォームのみに限定されていたFerret-UIとは異なり、Ferret-UI2はタブレット、ウェブ、スマートテレビなど、様々なデバイスからのUI画面を理解できます。このマルチプラットフォーム対応により、今日の多様なデバイスエコシステムに適応し、ユーザーにより幅広い用途を提供できます。

image.png

UI認識能力を高めるため、Ferret-UI2は動的高解像度画像符号化技術を導入し、「適応グリッド」と呼ばれる拡張手法を採用しています。この手法により、Ferret-UI2はUIスクリーンショットの元の解像度で認識能力を維持し、視覚要素とその間の関係をより正確に識別できます。

image.png

さらに、Ferret-UI2は高品質なトレーニングデータを使用して、基本タスクと高度なタスクを学習します。基本タスクでは、単純な参照と位置データ対話を変換することで、様々なUI画面の基本的な理解を可能にします。ユーザーエクスペリエンスに重点を置いた高度なタスクでは、**GPT-4oベースの「トークンセット視覚プロンプト」**技術を使用してトレーニングデータを作成し、以前の方法における単純なクリック指示に代えて、シングルステップのユーザー中心のインタラクションを採用しています。

Ferret-UI2の性能を評価するために、研究者らは5つのプラットフォームを網羅する45個のベンチマークテストを作成しました。これには、各プラットフォームの6つの基本タスクと3つの高度なタスクが含まれています。また、GUIDEやGUI-Worldなどの公開ベンチマークテストも使用しました。その結果、Ferret-UI2はすべてのテストベンチマークでFerret-UIを上回り、特に高度なタスクで著しい進歩を示し、クロスプラットフォームUI理解タスクにおける多機能性を証明しました。

アブレーションスタディはさらに、Ferret-UI2のアーキテクチャの改善とデータセットの改善の両方が性能向上に貢献していることを示しており、新しいデータセットはより困難なタスクへの影響がより顕著です。さらに、Ferret-UI2はクロスプラットフォーム転移学習においても優れた性能を示し、特にiPhone、iPad、Androidプラットフォーム間で良好な汎化能力を示しています。

モデルアドレス:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

論文アドレス:https://arxiv.org/pdf/2410.18967