Mobile-Agent
自律型マルチモーダルモバイルデバイスエージェント
一般製品生産性自律型マルチモーダル
Mobile-Agentは、自律型マルチモーダルモバイルデバイスエージェントです。マルチモーダル大規模言語モデル(MLLM)技術を活用し、まず、視覚認識ツールを用いてモバイルアプリケーションのフロントエンドインターフェース上の視覚的およびテキスト要素を正確に認識・特定します。認識された視覚環境に基づき、複雑な操作タスクを自律的に計画・分解し、段階的な操作によってモバイルアプリケーションをナビゲートします。アプリケーションのXMLファイルやモバイルシステムのメタデータに依存する従来のソリューションとは異なり、Mobile-Agentは視覚中心のアプローチを採用することで、様々なモバイル操作環境において高い適応性を持ち、特定システムへのカスタマイズを不要にします。Mobile-Agentの性能評価のため、モバイルデバイス操作評価ベンチマークであるMobile-Evalを導入しました。Mobile-Evalに基づき、Mobile-Agentを包括的に評価した結果、高い精度と完了率を達成していることが実証されました。複数アプリケーション操作などの難易度の高い指示に対しても、要求を達成することが可能です。