人工知能技術の進歩に伴い、ユーザーインターフェース(UI)の理解は、直感的で有用なAIアプリケーションを作成する上で重要な課題となっています。最近、Apple社の研究者たちは新たな論文で、軽量デバイスでのUI理解を目指したアーキテクチャであるUI-JEPAを発表しました。これは、高い性能を維持しながら、UI理解の計算要求を大幅に削減します。

UI理解の課題は、UIシーケンスにおける時間的関係を捉えるために、画像や自然言語を含むクロスモーダルな特徴を処理する必要がある点にあります。Anthropic Claude 3.5 SonnetやOpenAI GPT-4 Turboなどのマルチモーダル大規模言語モデル(MLLM)は、パーソナライズされたプランニングにおいて進歩を遂げていますが、これらのモデルは膨大な計算資源と巨大なモデルサイズを必要とし、高遅延につながるため、低遅延とプライバシー強化が求められる軽量デバイスソリューションには適していません。

QQ20240914-153931.png

UI-JEPAアーキテクチャ 画像出典:arXiv

UI-JEPAは、Meta AIのチーフサイエンティストであるYann LeCun氏が2022年に発表したJoint Embedding Predictive Architecture(JEPA)に着想を得ています。これは自己教師あり学習方法で、画像やビデオで隠された領域を予測することで意味表現を学習し、問題の次元を大幅に削減することで、より小さなモデルでも豊富な表現を学習できるようにします。

UI-JEPAアーキテクチャは、ビデオトランスフォーマーエンコーダーとデコーダーのみの言語モデルという2つの主要なコンポーネントで構成されています。ビデオトランスフォーマーエンコーダーはJEPAベースのモデルで、UIインタラクションのビデオを抽象的な特徴表現に処理します。言語モデルはビデオ埋め込みを採用し、ユーザーの意図をテキストで記述します。研究者たちは、約30億パラメーターを持つ軽量言語モデルであるMicrosoft Phi-3を使用し、デバイス上での実験と展開に適しています。

QQ20240914-154008.png

UI-JEPAのIITとIIWデータセットの例 画像出典:arXiv

UI理解の研究をさらに進めるために、研究者たちは2つの新しいマルチモーダルデータセットとベンチマーク、「In-the-Wild Intents」(IIW)と「Tamed Intents」(IIT)を導入しました。IIWは曖昧なユーザー意図を持つオープンなUI操作シーケンスを捉え、IITは意図がより明確な一般的なタスクに焦点を当てています。

新しいベンチマークでUI-JEPAの性能を評価した結果、少样本設定では他のビデオエンコーダーモデルを上回り、より大きなクローズドモデルと同等の性能を実現することが示されました。研究者たちは、UIから抽出されたテキストを光学文字認識(OCR)で統合することで、UI-JEPAの性能をさらに向上できることを発見しました。

UI-JEPAモデルの潜在的な用途には、AIエージェントのための自動フィードバックループの作成(これにより、人工の介入なしにインタラクションから継続的に学習できる)、そして様々なアプリケーションやモードにおけるユーザーの意図を追跡することを目的としたエージェントフレームワークへのUI-JEPAの統合などが含まれます。

Apple社のUI-JEPAモデルは、Appleデバイスをよりスマートで効率的にすることを目的とした軽量なジェネレーティブAIツールであるApple Intelligenceに非常に適しているように思われます。Apple社のプライバシーへの配慮を考えると、UI-JEPAモデルの低コストと高い効率性により、クラウドモデルに依存する他のアシスタントよりも、AIアシスタントが優位に立つ可能性があります。