Ferret-UI पहला उपयोगकर्ता इंटरफ़ेस केंद्रित बहु-मोडल बड़ा भाषा मॉडल (MLLM) है, जिसे इशारा अभिव्यक्ति, स्थान निर्धारण और तर्क कार्यों के लिए डिज़ाइन किया गया है। यह Gemma-2B और Llama-3-8B पर बनाया गया है, और जटिल उपयोगकर्ता इंटरफ़ेस कार्यों को निष्पादित करने में सक्षम है। यह संस्करण Apple के शोध पत्र का अनुसरण करता है, यह एक शक्तिशाली उपकरण है जिसका उपयोग छवि-पाठ से पाठ कार्यों के लिए किया जा सकता है, और इसमें वार्तालाप और पाठ निर्माण में बेहतर क्षमता है।