Avec les progrès constants de l'intelligence artificielle, la compréhension de l'interface utilisateur (UI) est devenue un défi crucial pour la création d'applications IA intuitives et utiles. Récemment, des chercheurs d'Apple ont présenté dans un nouveau document UI-JEPA, une architecture conçue pour permettre une compréhension légère de l'interface utilisateur sur les appareils. Elle maintient des performances élevées tout en réduisant considérablement les exigences de calcul de la compréhension de l'interface utilisateur.

Le défi de la compréhension de l'interface utilisateur réside dans la nécessité de traiter des caractéristiques multimodales, incluant les images et le langage naturel, afin de capturer les relations temporelles dans les séquences d'interface utilisateur. Bien que les grands modèles linguistiques multimodaux (MLLM) tels que Anthropic Claude 3.5 Sonnet et OpenAI GPT-4 Turbo aient progressé dans la planification personnalisée, ces modèles nécessitent d'énormes ressources de calcul, une taille de modèle importante et entraînent des latences élevées, ce qui les rend impropres aux solutions légères pour appareils nécessitant une faible latence et une confidentialité renforcée.

QQ20240914-153931.png

Architecture UI-JEPA Source : arXiv

UI-JEPA s'inspire de l'architecture de prédiction d'intégration conjointe (JEPA), une méthode d'apprentissage autosupervisé introduite en 2022 par Yann LeCun, scientifique en chef chez Meta AI. JEPA apprend des représentations sémantiques en prédisant les zones masquées d'une image ou d'une vidéo, réduisant considérablement la dimensionnalité du problème et permettant à des modèles plus petits d'apprendre des représentations riches.

L'architecture UI-JEPA se compose de deux composants principaux : un encodeur de transformateur vidéo et un modèle linguistique de décodage uniquement. L'encodeur de transformateur vidéo, un modèle basé sur JEPA, traite la vidéo des interactions de l'interface utilisateur en représentations de caractéristiques abstraites. Le modèle linguistique prend les plongements vidéo en entrée et génère une description textuelle de l'intention de l'utilisateur. Les chercheurs ont utilisé Microsoft Phi-3, un modèle linguistique léger d'environ 3 milliards de paramètres, parfaitement adapté aux expérimentations et au déploiement sur les appareils.

QQ20240914-154008.png

Exemples de jeux de données IIT et IIW de UI-JEPA Source : arXiv

Pour faire progresser la recherche sur la compréhension de l'interface utilisateur, les chercheurs ont introduit deux nouveaux jeux de données et benchmarks multimodaux : « Intention in the Wild » (IIW) et « Intention Tamed » (IIT). IIW capture des séquences d'opérations d'interface utilisateur ouvertes avec des intentions utilisateur ambiguës, tandis que IIT se concentre sur des tâches courantes avec des intentions plus claires.

L'évaluation des performances de UI-JEPA sur les nouveaux benchmarks montre qu'il surpasse d'autres modèles d'encodeurs vidéo dans les configurations à faible nombre d'exemples et atteint des performances comparables à celles de modèles fermés plus importants. Les chercheurs ont constaté que l'intégration de texte extrait de l'interface utilisateur à l'aide de la reconnaissance optique de caractères (OCR) améliorait encore les performances de UI-JEPA.

Les utilisations potentielles du modèle UI-JEPA incluent la création de boucles de rétroaction automatique pour les agents IA, leur permettant d'apprendre continuellement des interactions sans intervention humaine, et l'intégration de UI-JEPA dans des frameworks d'agents conçus pour suivre les intentions des utilisateurs dans différentes applications et modalités.

Le modèle UI-JEPA d'Apple semble parfaitement adapté à Apple Intelligence, une suite d'outils d'IA générative légers conçus pour rendre les appareils Apple plus intelligents et plus efficaces. Compte tenu de l'attention portée par Apple à la confidentialité, le faible coût et l'efficacité supplémentaire du modèle UI-JEPA pourraient donner à ses assistants IA un avantage sur les autres assistants qui reposent sur des modèles cloud.