Con el continuo avance de la tecnología de inteligencia artificial, la comprensión de la interfaz de usuario (UI) se ha convertido en un desafío clave para la creación de aplicaciones de IA intuitivas y útiles. Recientemente, investigadores de Apple presentaron en un nuevo artículo UI-JEPA, una arquitectura diseñada para lograr una comprensión de la IU en dispositivos ligeros, manteniendo un alto rendimiento y reduciendo significativamente los requisitos de cálculo para la comprensión de la IU.

El desafío de la comprensión de la IU radica en la necesidad de procesar características multimodales, incluyendo imágenes y lenguaje natural, para capturar las relaciones temporales en las secuencias de la IU. Aunque los grandes modelos de lenguaje multimodales (MLLM) como Anthropic Claude3.5Sonnet y OpenAI GPT-4Turbo han avanzado en la planificación personalizada, estos modelos requieren grandes recursos computacionales, un tamaño de modelo enorme y generan alta latencia, lo que los hace inadecuados para soluciones de dispositivos ligeros que requieren baja latencia y privacidad mejorada.

QQ20240914-153931.png

Arquitectura UI-JEPA Fuente: arXiv

UI-JEPA se inspira en la arquitectura de predicción de incrustaciones conjuntas (JEPA), una metodología de aprendizaje autosupervisado presentada en 2022 por Yann LeCun, científico jefe de Meta AI. JEPA aprende representaciones semánticas mediante la predicción de regiones ocultas en imágenes o videos, reduciendo significativamente la dimensionalidad del problema y permitiendo que modelos más pequeños aprendan representaciones ricas.

La arquitectura UI-JEPA consta de dos componentes principales: un codificador de transformador de video y un modelo de lenguaje solo de decodificador. El codificador de transformador de video, un modelo basado en JEPA, procesa el video de la interacción de la IU en representaciones de características abstractas. El LM toma las incrustaciones de video y genera una descripción textual de la intención del usuario. Los investigadores utilizaron Microsoft Phi-3, un LM ligero con aproximadamente 3 mil millones de parámetros, ideal para experimentos y despliegue en dispositivos.

QQ20240914-154008.png

Ejemplos de conjuntos de datos IIT e IIW de UI-JEPA Fuente: arXiv

Para avanzar aún más en la investigación de la comprensión de la IU, los investigadores introdujeron dos nuevos conjuntos de datos y benchmarks multimodales: "Intención en el mundo real" (IIW) e "Intención domesticada" (IIT). IIW captura secuencias de operaciones de IU abiertas con intenciones de usuario ambiguas, mientras que IIT se centra en tareas comunes con intenciones más claras.

La evaluación del rendimiento de UI-JEPA en los nuevos benchmarks muestra que supera a otros modelos de codificadores de video en entornos de pocos ejemplos y logra un rendimiento comparable a modelos cerrados más grandes. Los investigadores descubrieron que la incorporación de texto extraído de la IU mediante reconocimiento óptico de caracteres (OCR) mejora aún más el rendimiento de UI-JEPA.

Los usos potenciales del modelo UI-JEPA incluyen la creación de bucles de retroalimentación automática para agentes de IA, permitiéndoles aprender continuamente de las interacciones sin intervención humana, y la integración de UI-JEPA en marcos de agentes diseñados para rastrear las intenciones del usuario en diferentes aplicaciones y patrones.

El modelo UI-JEPA de Apple parece ser muy adecuado para Apple Intelligence, un conjunto de herramientas de IA generativa ligeras diseñadas para hacer que los dispositivos Apple sean más inteligentes y eficientes. Dada la preocupación de Apple por la privacidad, el bajo costo y la eficiencia adicional del modelo UI-JEPA podrían dar a sus asistentes de IA una ventaja sobre otros asistentes que dependen de modelos en la nube.