सेब के एआई/एमएल टीम ने कोलंबिया विश्वविद्यालय के साथ मिलकर विकसित किए गए मल्टीमॉडल बड़े मॉडल "फेरेट" ने गूगल की मानव-मशीन कैप्चा को सफलतापूर्वक चुनौती दी है, जो ट्रैफिक लाइट्स को पहचानने में सक्षम है और "देखें, बोलें, उत्तर दें" कार्यों में बड़े मॉडल की सटीकता को बढ़ाता है। फेरेट की नवाचार यह है कि यह संदर्भ और स्थान की समझ की क्षमता को एकीकृत करता है, जबकि अर्थ और लक्ष्य को समझता है, जो पारंपरिक मल्टीमॉडल मॉडलों से अलग है। मिश्रित क्षेत्र प्रतिनिधित्व विधि का उपयोग करते हुए, डिस्क्रीट कोऑर्डिनेट और निरंतर विशेषताओं को संयोजित करते हुए, मॉडल ने मल्टीटास्क मूल्यांकन में उत्कृष्ट प्रदर्शन किया, विशेष रूप से संदर्भ और दृश्य ग्राउंडिंग कार्यों में। यह सफलता चीन की टीम द्वारा हासिल की गई है, जो मल्टीमॉडल बड़े मॉडल अनुसंधान में चीन की ताकत को उजागर करती है, और छवि समझ और मल्टीमॉडल कार्यों के लिए नई दिशा प्रदान करती है। फेरेट की उपलब्धियाँ मानव-मशीन इंटरैक्शन और स्मार्ट सर्च जैसे क्षेत्रों में महत्वपूर्ण सफलताओं की उम्मीद जगाती हैं।