ViTMatte
पूर्व-प्रशिक्षित शुद्ध दृश्य ट्रांसफार्मर द्वारा संवर्धित छवि मास्किंग
सामान्य उत्पादछविछवि मास्किंगदृश्य ट्रांसफार्मर
ViTMatte एक पूर्व-प्रशिक्षित शुद्ध दृश्य ट्रांसफार्मर (Plain Vision Transformers, ViTs) पर आधारित छवि मास्किंग प्रणाली है। यह प्रदर्शन और गणना के बीच संतुलन को अनुकूलित करने के लिए मिश्रित ध्यान तंत्र और कनवल्शन गर्दन का उपयोग करता है, और मास्किंग के लिए आवश्यक विवरण जानकारी को पूरा करने के लिए एक विवरण कैप्चर मॉड्यूल पेश करता है। ViTMatte छवि मास्किंग के क्षेत्र में ViT की क्षमता को सरल अनुकूलन के माध्यम से मुक्त करने वाला पहला कार्य है, जो पूर्व-प्रशिक्षण रणनीतियों, सरल वास्तुकला डिजाइन और लचीली अनुमान रणनीतियों जैसे ViT के लाभों को विरासत में मिला है। Composition-1k और Distinctions-646, दो सबसे अधिक उपयोग किए जाने वाले छवि मास्किंग बेंचमार्क परीक्षणों में, ViTMatte ने अत्याधुनिक प्रदर्शन प्राप्त किया है और पिछले कार्यों को काफी हद तक पार कर गया है।
ViTMatte नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34