Mit dem Fortschritt der künstlichen Intelligenz (KI) wird das Verständnis von Benutzeroberflächen (UI) zu einer zentralen Herausforderung bei der Entwicklung intuitiver und nützlicher KI-Anwendungen. Forscher von Apple haben kürzlich in einer neuen Veröffentlichung UI-JEPA vorgestellt, eine Architektur, die ein leichtgewichtiges, gerätebasiertes UI-Verständnis zum Ziel hat. Sie zeichnet sich durch hohe Leistung bei gleichzeitig deutlich reduziertem Rechenaufwand aus.

Die Herausforderung beim UI-Verständnis liegt in der Verarbeitung von modalitätsübergreifenden Merkmalen, einschließlich Bildern und natürlicher Sprache, um zeitliche Beziehungen in UI-Sequenzen zu erfassen. Obwohl multimodale große Sprachmodelle (MLLM) wie Anthropic Claude 3.5 Sonnet und OpenAI GPT-4 Turbo Fortschritte bei der personalisierten Planung gemacht haben, benötigen diese Modelle erhebliche Rechenressourcen, enorme Modellgrößen und verursachen hohe Latenzen. Sie sind daher nicht für leichtgewichtige Gerätelösungen geeignet, die geringe Latenz und erhöhten Datenschutz erfordern.

QQ20240914-153931.png

UI-JEPA Architektur Bildquelle: arXiv

UI-JEPA basiert auf der von Yann LeCun, dem Chefforscher von Meta AI, im Jahr 2022 vorgestellten Joint Embedding Predictive Architecture (JEPA), einer Methode des selbstüberwachten Lernens. JEPA lernt semantische Repräsentationen, indem es verdeckte Bereiche in Bildern oder Videos vorhersagt. Dies reduziert die Dimensionalität des Problems erheblich und ermöglicht es kleineren Modellen, reichhaltige Repräsentationen zu lernen.

Die UI-JEPA-Architektur besteht aus zwei Hauptkomponenten: einem Video-Transformer-Encoder und einem rein dekodierenden Sprachmodell. Der Video-Transformer-Encoder ist ein auf JEPA basierendes Modell, das Videos von UI-Interaktionen in abstrakte Merkmalsdarstellungen verarbeitet. Das Sprachmodell (LM) verwendet die Video-Einbettungen und generiert textuelle Beschreibungen der Benutzerabsichten. Die Forscher verwendeten Microsoft Phi-3, ein leichtgewichtiges LM mit etwa 3 Milliarden Parametern, das sich ideal für Experimente und den Einsatz auf Geräten eignet.

QQ20240914-154008.png

UI-JEPA IIT und IIW Datensatzbeispiele Bildquelle: arXiv

Um die Forschung zum UI-Verständnis weiter voranzutreiben, haben die Forscher zwei neue multimodale Datensätze und Benchmarks eingeführt: „In-the-Wild Intentions“ (IIW) und „Tamed Intentions“ (IIT). IIW erfasst offene UI-Aktionssequenzen mit unklaren Benutzerabsichten, während IIT sich auf häufige Aufgaben mit klareren Absichten konzentriert.

Die Evaluierung der Leistung von UI-JEPA auf den neuen Benchmarks zeigt, dass es in Low-Shot-Einstellungen besser abschneidet als andere Video-Encoder-Modelle und eine vergleichbare Leistung zu größeren, geschlossenen Modellen erreicht. Die Forscher stellten fest, dass die Integration von mit OCR aus der UI extrahiertem Text die Leistung von UI-JEPA weiter verbessert.

Potenzielle Anwendungen des UI-JEPA-Modells umfassen die Erstellung automatischer Feedbackschleifen für KI-Agenten, die es ihnen ermöglichen, ohne menschliches Eingreifen kontinuierlich aus Interaktionen zu lernen, sowie die Integration von UI-JEPA in Agenten-Frameworks, die darauf ausgelegt sind, Benutzerabsichten in verschiedenen Anwendungen und Modi zu verfolgen.

Das UI-JEPA-Modell von Apple scheint gut zu Apple Intelligence zu passen, einem Satz leichtgewichtiger generativer KI-Tools, die Apple-Geräte intelligenter und effizienter machen sollen. Angesichts des Fokus von Apple auf Datenschutz könnten die geringen Kosten und die zusätzliche Effizienz von UI-JEPA seinen KI-Assistenten im Vergleich zu anderen Assistenten, die auf Cloud-Modelle angewiesen sind, einen Vorteil verschaffen.