ml-ferret ist ein End-to-End Machine-Learning-Sprachmodell (MLLM), das verschiedene Arten von Referenzen verarbeiten und präzise Lokalisierungen in multi-modalen Umgebungen reaktiv durchführen kann. Es kombiniert hybride Regionenrepräsentationen mit einem räumlich bewussten visuellen Sampler und unterstützt die Referenzierung und Lokalisierung mit hoher Granularität und offenem Vokabular. Darüber hinaus umfasst ml-ferret den GRIT-Datensatz (ca. 1,1 Millionen Samples) und den Ferret-Bench Bewertungsmaßstab.