ml-ferret es un modelo de lenguaje de aprendizaje automático (MLLM) de extremo a extremo que puede aceptar diversas formas de citas y realizar una localización precisa y receptiva en entornos multimodales. Combina representaciones regionales híbridas y un muestreador visual con percepción espacial, lo que permite la citación y localización de grano fino y con vocabulario abierto. Además, ml-ferret incluye el conjunto de datos GRIT (aproximadamente 1,1 millones de muestras) y el banco de pruebas de evaluación Ferret-Bench.