ml-ferretは、様々な形式の参照を受け入れ、マルチモーダル環境において応答性高く正確な位置特定を行うエンドツーエンドの機械学習言語モデル(MLLM)です。混合領域表現と空間認識ビジュアルサンプラーを組み合わせることで、細粒度かつオープンボキャブラリの参照と位置特定をサポートします。さらに、ml-ferretには、約110万サンプルのGRITデータセットとFerret-Bench評価ベンチマークが含まれています。