Apple ha lanzado recientemente su sistema de inteligencia artificial de última generación, Ferret-UI2. Este asistente de IA multiplataforma ha logrado un gran avance en el reconocimiento de elementos de la interfaz de usuario (UI), obteniendo una puntuación de 89,73 en las pruebas, superando ampliamente los 77,73 puntos de GPT-4V y demostrando un rendimiento excepcional.
La característica principal de este sistema es su capacidad para comprender inteligentemente las intenciones del usuario. A diferencia de los métodos tradicionales basados en clics de coordenadas, Ferret-UI2 puede localizar y ejecutar las acciones correspondientes según las instrucciones en lenguaje natural del usuario. El equipo de investigación utilizó la capacidad visual de GPT-4V para generar datos de entrenamiento, lo que permite al sistema comprender mejor las relaciones espaciales entre los elementos de la interfaz.
En cuanto a la arquitectura técnica, Ferret-UI2 emplea un diseño adaptable, capaz de reconocer con precisión los elementos de la interfaz de usuario en varias plataformas, como iPhone, iPad, dispositivos Android, navegadores web y Apple TV. El sistema también cuenta con un algoritmo inteligente que ajusta automáticamente la resolución de la imagen y las necesidades de procesamiento según la plataforma, garantizando la eficiencia de la computación local sin perder integridad de la información.
Los datos de las pruebas reales muestran que el sistema ofrece un rendimiento excelente en todas las plataformas: funciona sin problemas en iPhone, alcanza una precisión del 68% en iPad y una tasa de éxito del 71% en dispositivos Android. Sin embargo, en escenarios multidispositivo, como la transición entre dispositivos móviles y pantallas de televisión o web, aún existen algunos desafíos, principalmente debido a las diferencias en el diseño de la interfaz entre las distintas plataformas.
Cabe destacar que la competencia en el campo de la IA para la interacción con la interfaz de usuario es cada vez más intensa. Anthropic ha actualizado recientemente las capacidades de interacción con la interfaz de usuario de Claude3.5 Sonnet, mientras que Microsoft ha lanzado el código abierto de la herramienta OmniParser, dedicada a convertir el contenido de la pantalla en datos estructurados.
Apple también ha presentado el marco CAMPHOR, que, mediante la colaboración de un agente de IA profesional y un agente de inferencia principal, mejora aún más la capacidad del sistema para gestionar tareas complejas. Esto significa que en el futuro, asistentes de voz como Siri podrán realizar tareas complejas, como reservar un restaurante, de forma más inteligente, sin necesidad de que el usuario manipule manualmente la interfaz.
Este avance tecnológico no solo mejora la inteligencia de las operaciones multidispositivo, sino que también dibuja un panorama claro para la próxima generación de interacción humano-computadora. Con la evolución continua de la tecnología, una experiencia de interacción humano-computadora más inteligente y natural está al alcance de la mano.