कंप्यूटर विज़न क्षेत्र में अनुसंधान की प्रगति में से एक है "सब कुछ विभाजित करने वाला मॉडल"। मेटा ने अप्रैल में इस मॉडल को जारी किया, जो स्वचालित रूप से छवि में सभी सामग्री को विभाजित करने में सक्षम है। यह मॉडल संकेतित दृश्य ट्रांसफार्मर मॉडल पर आधारित है, जिसे 1100 लाख से अधिक छवियों के 10 करोड़ से अधिक मास्क का उपयोग करके प्रशिक्षित किया गया है। शोधकर्ताओं ने एक सुधारात्मक दृष्टिकोण भी प्रस्तुत किया, जिसने मास्क छवि पूर्व-प्रशिक्षण विधि और SAM मॉडल का उपयोग किया, ताकि उच्च गुणवत्ता वाले पूर्व-प्रशिक्षित ViT एनकोडर प्राप्त किया जा सके। इस विधि ने SAM की जटिलता को कम किया, जबकि अच्छी प्रदर्शन बनाए रखा, और कई कार्यों पर अन्य पूर्व-प्रशिक्षित मॉडलों की तुलना में बेहतर परिणाम प्राप्त किए।
छोटा मॉडल भी 'सब कुछ विभाजित' कर सकता है, मेटा ने SAM में सुधार किया

机器之心
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।