Celulares, tablets, computadores, televisores... telas em todos os lugares, operações cada vez mais complexas. Você já se sentiu sobrecarregado? A Apple lançou recentemente uma bomba: o Ferret-UI2, um modelo de compreensão de IU superpoderoso que promete unificar tudo!

Não é apenas marketing. O Ferret-UI2 visa ser um verdadeiro “sexto elemento”, capaz de entender interfaces de usuário em diversas plataformas: iPhone, Android, iPad, web e Apple TV – tudo isso com facilidade.

image.png

Um dos destaques do Ferret-UI2 é sua compatibilidade multiplataforma. Diferentemente do Ferret-UI, limitado a plataformas móveis, o Ferret-UI2 consegue entender interfaces de tablets, web e smart TVs. Essa compatibilidade o torna adaptável ao ecossistema de dispositivos diversificado de hoje, oferecendo aplicações mais amplas para os usuários.

image.png

Para aprimorar a percepção da IU, o Ferret-UI2 introduziu uma técnica de codificação de imagens dinâmicas em alta resolução e um método aprimorado chamado "grade adaptativa". Com isso, o Ferret-UI2 mantém sua capacidade de percepção na resolução original das capturas de tela da IU, identificando com mais precisão os elementos visuais e suas relações.

image.png

Além disso, o Ferret-UI2 utiliza dados de treinamento de alta qualidade para aprender tarefas básicas e avançadas. Para tarefas básicas, o Ferret-UI2 converte dados simples de referência e localização em formato de diálogo, permitindo que o modelo estabeleça uma compreensão básica de várias telas de IU. Para tarefas avançadas, mais focadas na experiência do usuário, o Ferret-UI2 emprega a técnica de **“prompt visual de conjunto de marcadores baseado em GPT-4o”** para gerar dados de treinamento, substituindo as instruções de clique simples de métodos anteriores por uma interação centrada no usuário em uma única etapa.

Para avaliar o desempenho do Ferret-UI2, os pesquisadores criaram 45 testes de referência abrangendo cinco plataformas, incluindo 6 tarefas básicas e 3 tarefas avançadas para cada plataforma. Eles também utilizaram testes de referência públicos como GUIDE e GUI-World. Os resultados mostraram que o Ferret-UI2 superou o Ferret-UI em todos os testes de referência, com melhorias significativas em tarefas avançadas, demonstrando sua versatilidade no tratamento de tarefas de compreensão de IU multiplataforma.

Estudos de ablação mostraram ainda que as melhorias na arquitetura e no conjunto de dados do Ferret-UI2 contribuíram para a melhoria do desempenho, sendo o novo conjunto de dados mais impactante em tarefas mais desafiadoras. Além disso, o Ferret-UI2 apresentou excelente desempenho em aprendizado de transferência multiplataforma, especialmente mostrando boa capacidade de generalização entre plataformas iPhone, iPad e Android.

Endereço do modelo: https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

Endereço do artigo: https://arxiv.org/pdf/2410.18967