A Apple lançou recentemente o Ferret-UI2, seu novo sistema de inteligência artificial. Este assistente de IA multiplataforma alcançou um avanço significativo no reconhecimento de elementos de interface do usuário (UI), obtendo uma pontuação de 89,73 nos testes, superando em muito os 77,73 pontos do GPT-4V e demonstrando desempenho excepcional.

O principal diferencial deste sistema reside em sua capacidade de compreender inteligentemente a intenção do usuário. Ao contrário dos métodos tradicionais baseados em cliques de coordenadas, o Ferret-UI2 consegue localizar e executar as ações correspondentes com base em comandos de linguagem natural. A equipe de pesquisa utilizou a capacidade visual do GPT-4V para gerar dados de treinamento, permitindo que o sistema compreendesse melhor as relações espaciais entre os elementos da interface.

image.png

Em termos de arquitetura técnica, o Ferret-UI2 utiliza um design adaptável, permitindo o reconhecimento preciso de elementos de UI em diversas plataformas, como iPhone, iPad, dispositivos Android, navegadores da web e Apple TV. O sistema também conta com algoritmos inteligentes que ajustam automaticamente a resolução de imagem e as necessidades de processamento de acordo com a plataforma, garantindo a integridade das informações e a eficiência da computação local.

1.png

Dados de testes reais mostram que o sistema apresenta desempenho excelente em várias plataformas: funcionamento fluido no iPhone, precisão de 68% no iPad e taxa de sucesso de 71% em dispositivos Android. No entanto, em cenários multidispositivos, como a alternância entre dispositivos móveis e interfaces de televisão ou web, ainda existem alguns desafios, principalmente devido às diferenças de layout de interface entre as plataformas.

É importante notar que a competição no campo da IA de interação com UI está cada vez mais acirrada. A Anthropic recentemente atualizou a capacidade de interação com UI do Claude3.5 Sonnet, enquanto a Microsoft lançou o OmniParser, uma ferramenta de código aberto que visa converter o conteúdo da tela em dados estruturados.

A Apple também lançou a estrutura CAMPHOR, que, por meio da cooperação entre um agente de IA profissional e um agente de raciocínio principal, aprimora ainda mais a capacidade do sistema de lidar com tarefas complexas. Isso significa que, no futuro, assistentes de voz como a Siri poderão executar tarefas complexas, como reservas em restaurantes, de forma mais inteligente, sem que o usuário precise interagir manualmente com a interface.

Este avanço tecnológico não apenas melhora o nível de inteligência da operação multidispositivo, mas também traça um mapa claro para a próxima geração de interação homem-máquina. Com a evolução contínua da tecnologia, uma experiência de interação homem-máquina mais inteligente e natural está ao nosso alcance.