ml-ferret é um modelo de linguagem de aprendizado de máquina (MLLM) de ponta a ponta que pode receber referências em diversos formatos e realizar localização precisa e responsiva em ambientes multimodais. Ele combina representações mistas de regiões e um amostrador visual espacialmente consciente, suportando referência e localização de grão fino e de vocabulário aberto. Além disso, ml-ferret inclui o conjunto de dados GRIT (aproximadamente 1,1 milhão de amostras) e o benchmark de avaliação Ferret-Bench.