कंप्यूटर विज़न क्षेत्र में अनुसंधान की प्रगति में से एक है "सब कुछ विभाजित करने वाला मॉडल"। मेटा ने अप्रैल में इस मॉडल को जारी किया, जो स्वचालित रूप से छवि में सभी सामग्री को विभाजित करने में सक्षम है। यह मॉडल संकेतित दृश्य ट्रांसफार्मर मॉडल पर आधारित है, जिसे 1100 लाख से अधिक छवियों के 10 करोड़ से अधिक मास्क का उपयोग करके प्रशिक्षित किया गया है। शोधकर्ताओं ने एक सुधारात्मक दृष्टिकोण भी प्रस्तुत किया, जिसने मास्क छवि पूर्व-प्रशिक्षण विधि और SAM मॉडल का उपयोग किया, ताकि उच्च गुणवत्ता वाले पूर्व-प्रशिक्षित ViT एनकोडर प्राप्त किया जा सके। इस विधि ने SAM की जटिलता को कम किया, जबकि अच्छी प्रदर्शन बनाए रखा, और कई कार्यों पर अन्य पूर्व-प्रशिक्षित मॉडलों की तुलना में बेहतर परिणाम प्राप्त किए।