Teléfonos móviles, tabletas, computadoras, televisores... cada vez más pantallas, cada vez más operaciones complejas. ¿Te sientes abrumado? Apple acaba de lanzar una bomba: Ferret-UI2, un modelo de comprensión de interfaz de usuario (UI) extremadamente potente que promete unificar el panorama.

No se trata de fanfarronería. Ferret-UI2 aspira a ser un verdadero todoterreno, capaz de comprender interfaces de usuario en diversas plataformas: iPhone, Android, iPad, páginas web y Apple TV, todo sin problemas.

image.png

Uno de los puntos fuertes de Ferret-UI2 es su compatibilidad multiplataforma. A diferencia de Ferret-UI, que se limita a plataformas móviles, Ferret-UI2 puede comprender interfaces de usuario de tabletas, páginas web y Smart TV. Esta compatibilidad multiplataforma le permite adaptarse al diverso ecosistema de dispositivos actual, ofreciendo a los usuarios una gama más amplia de aplicaciones.

image.png

Para mejorar la capacidad de percepción de la UI, Ferret-UI2 incorpora una técnica de codificación de imágenes dinámicas de alta resolución y emplea un método mejorado llamado "malla adaptativa". Gracias a este método, Ferret-UI2 mantiene su capacidad de percepción en la resolución original de las capturas de pantalla de la interfaz de usuario, lo que permite una identificación más precisa de los elementos visuales y sus relaciones.

image.png

Además, Ferret-UI2 utiliza datos de entrenamiento de alta calidad para aprender tareas básicas y avanzadas. Para las tareas básicas, Ferret-UI2 convierte datos simples de referencia y localización en un formato de diálogo, permitiendo que el modelo establezca una comprensión básica de diversas pantallas de interfaz de usuario. Para las tareas avanzadas, más centradas en la experiencia del usuario, Ferret-UI2 emplea la técnica de **"indicaciones visuales de conjuntos de etiquetas basadas en GPT-4o"** para generar datos de entrenamiento, sustituyendo las simples instrucciones de clic de los métodos anteriores por una interacción centrada en el usuario en un solo paso.

Para evaluar el rendimiento de Ferret-UI2, los investigadores crearon 45 pruebas de referencia que abarcan cinco plataformas, incluyendo seis tareas básicas y tres avanzadas para cada plataforma. También utilizaron pruebas de referencia públicas como GUIDE y GUI-World. Los resultados muestran que Ferret-UI2 supera a Ferret-UI en todas las pruebas de referencia, con mejoras notables en las tareas avanzadas, lo que demuestra su versatilidad en el manejo de tareas de comprensión de interfaces de usuario multiplataforma.

Estudios adicionales de eliminación muestran que tanto las mejoras en la arquitectura de Ferret-UI2 como las mejoras en el conjunto de datos contribuyeron a la mejora del rendimiento, siendo el nuevo conjunto de datos especialmente significativo para las tareas más desafiantes. Además, Ferret-UI2 muestra un excelente rendimiento en el aprendizaje por transferencia entre plataformas, especialmente una buena capacidad de generalización entre iPhone, iPad y Android.

Dirección del modelo: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

Dirección del artículo: https://arxiv.org/pdf/2410.18967