A equipe de IA/ML da Apple, em colaboração com a Universidade de Columbia, desenvolveu um modelo multimodal de grande escala chamado "Furão" (Ferret), que superou com sucesso o CAPTCHA de verificação humana do Google. O Furão consegue reconhecer sinais de trânsito e melhorar a precisão de modelos de grande escala em tarefas de "ver, dizer, responder".
A inovação do Furão reside na sua capacidade de integrar a compreensão espacial de referências e localização, compreendendo simultaneamente o significado e o objetivo, ao contrário dos modelos multimodais tradicionais. Utilizando um método de representação de região híbrida, combinando coordenadas discretas e características contínuas, o modelo apresentou um desempenho excepcional em avaliações multitarefas, especialmente nas tarefas de referência e ancoragem visual (visual grounding).
Essa conquista foi alcançada por uma equipe chinesa, destacando a força da China na pesquisa de modelos multimodais de grande escala e oferecendo uma nova direção para a compreensão de imagens e tarefas multimodais. Os sucessos do Furão prometem avanços significativos em áreas como interação homem-máquina e pesquisa inteligente.