Pesquisadores da Apple e da Universidade de Columbia colaboraram no desenvolvimento do Ferret, um modelo de linguagem multimodal projetado para alcançar um entendimento e descrição avançados de imagens. O modelo possui uma forte capacidade de compreensão global, processando simultaneamente texto livre e regiões referenciadas, superando o desempenho de modelos tradicionais.
Os pesquisadores criaram o conjunto de dados GRIT para orientar o treinamento do modelo e avaliar o desempenho do Ferret em várias tarefas. O Ferret demonstrou capacidades de referência e localização, mostrando potencial para grandes avanços em áreas como interação humano-computador e busca inteligente.