Com o avanço contínuo da tecnologia de inteligência artificial, a compreensão da interface do usuário (UI) tornou-se um desafio crucial para a criação de aplicativos de IA intuitivos e úteis. Recentemente, pesquisadores da Apple apresentaram em um novo artigo o UI-JEPA, uma arquitetura projetada para permitir a compreensão de UI em dispositivos leves. Ele mantém alto desempenho, reduzindo significativamente os requisitos computacionais para a compreensão de UI.
O desafio da compreensão de UI reside na necessidade de lidar com características multimodais, incluindo imagens e linguagem natural, para capturar as relações temporais em sequências de UI. Embora modelos de linguagem grandes multimodais (MLLMs) como Anthropic Claude3.5Sonnet e OpenAI GPT-4Turbo tenham avançado no planejamento personalizado, esses modelos exigem muitos recursos computacionais, tamanho de modelo enorme e causam alta latência, tornando-os inadequados para soluções de dispositivos leves que exigem baixa latência e privacidade aprimorada.
Arquitetura UI-JEPA Fonte:arXiv
O UI-JEPA foi inspirado na arquitetura de previsão de incorporação conjunta (JEPA), apresentada em 2022 pelo cientista-chefe de IA do Meta, Yann LeCun. A JEPA é um método de aprendizado autossupervisionado que aprende representações semânticas prevendo regiões ocultas de imagens ou vídeos, reduzindo significativamente a dimensionalidade do problema e permitindo que modelos menores aprendam representações ricas.
A arquitetura UI-JEPA consiste em dois componentes principais: um codificador de transformador de vídeo e um modelo de linguagem somente de decodificador. O codificador de transformador de vídeo, um modelo baseado em JEPA, processa o vídeo da interação da UI em representações de características abstratas. O LM recebe as incorporações de vídeo e gera uma descrição textual da intenção do usuário. Os pesquisadores usaram o Microsoft Phi-3, um LM leve com aproximadamente 3 bilhões de parâmetros, ideal para experimentos e implantação em dispositivos.
Exemplos de conjuntos de dados IIT e IIW do UI-JEPA Fonte:arXiv
Para avançar ainda mais a pesquisa em compreensão de UI, os pesquisadores introduziram dois novos conjuntos de dados e benchmarks multimodais: "Intenção no Ambiente Real" (IIW) e "Intenção Domesticada" (IIT). O IIW captura sequências de operações de UI abertas com intenções de usuário ambíguas, enquanto o IIT se concentra em tarefas comuns com intenções mais claras.
A avaliação do desempenho do UI-JEPA nesses novos benchmarks mostrou que ele supera outros modelos de codificador de vídeo em cenários de poucos exemplos e alcança desempenho comparável a modelos fechados maiores. Os pesquisadores descobriram que a incorporação de texto extraído da UI usando reconhecimento óptico de caracteres (OCR) melhora ainda mais o desempenho do UI-JEPA.
Os usos potenciais do modelo UI-JEPA incluem a criação de loops de feedback automático para agentes de IA, permitindo que eles aprendam continuamente com as interações sem intervenção humana, e a integração do UI-JEPA em estruturas de agentes projetadas para rastrear a intenção do usuário em diferentes aplicativos e padrões.
O modelo UI-JEPA da Apple parece ser uma boa opção para a Apple Intelligence, um conjunto de ferramentas de IA generativa leves projetadas para tornar os dispositivos Apple mais inteligentes e eficientes. Dada a preocupação da Apple com a privacidade, o baixo custo e a eficiência adicional do modelo UI-JEPA podem dar a seus assistentes de IA uma vantagem sobre outros assistentes que dependem de modelos em nuvem.