Ferret-UI é o primeiro modelo de linguagem grande multimodais (MLLM) centrado na interface do usuário, projetado para tarefas de compreensão de referência, localização e raciocínio. Construído com base em Gemma-2B e Llama-3-8B, ele é capaz de executar tarefas complexas de interface do usuário. Esta versão segue o artigo de pesquisa da Apple e é uma ferramenta poderosa que pode ser usada para tarefas de imagem-texto para texto, além de apresentar vantagens em diálogo e geração de texto.