वेबमास्टर हाउस (ChinaZ.com) 14 जून की खबर: बाइटडांस ने नई पीढ़ी के Depth Anything V2 गहराई मॉडल का अनावरण किया है, जिसने एकल-चश्मा गहराई अनुमान क्षेत्र में महत्वपूर्ण प्रदर्शन सुधार किया है। पिछले पीढ़ी Depth Anything V1 की तुलना में, V2 संस्करण में अधिक विस्तृत विवरण और बेहतर मजबूती है, साथ ही इसकी दक्षता में भी महत्वपूर्ण सुधार हुआ है, जो Stable Diffusion आधारित मॉडल की तुलना में 10 गुना से अधिक तेज है।
मुख्य विशेषताएँ:
अधिक विस्तृत विवरण: V2 मॉडल ने विवरण में सुधार किया है, जो अधिक विस्तृत गहराई भविष्यवाणी प्रदान करता है।
उच्च दक्षता और सटीकता: SD आधारित मॉडल की तुलना में, V2 में दक्षता और सटीकता दोनों में महत्वपूर्ण सुधार हुआ है।
विभिन्न आकार के मॉडल का समर्थन: विभिन्न आकार के मॉडल प्रदान किए गए हैं, जिनके पैरामीटर 25M से 1.3B तक हैं, ताकि विभिन्न अनुप्रयोग परिदृश्यों के अनुकूल हो सकें।
प्रमुख प्रथाएँ: सिंथेटिक छवियों का उपयोग करके वास्तविक छवियों को प्रतिस्थापित करना, शिक्षक मॉडल की क्षमता बढ़ाना, और बड़े पैमाने पर अर्ध-चिह्नित छवियों का उपयोग करके छात्र मॉडल को सिखाना जैसे तरीकों से मॉडल के प्रदर्शन में सुधार किया गया है।
मॉडल प्रदर्शन में सुधार के तीन प्रमुख प्रथाएँ:
सिंथेटिक छवियों का उपयोग: सभी चिह्नित वास्तविक छवियों के बजाय सिंथेटिक छवियों का उपयोग करने से मॉडल के प्रशिक्षण की दक्षता बढ़ी है।
शिक्षक मॉडल की क्षमता का विस्तार: शिक्षक मॉडल की क्षमता को बढ़ाकर, मॉडल की सामान्यीकरण क्षमता को मजबूत किया गया है।
अर्ध-चिह्नित छवियों का उपयोग: बड़े पैमाने पर अर्ध-चिह्नित वास्तविक छवियों का उपयोग करके छात्र मॉडल को सिखाने के लिए एक पुल के रूप में काम किया गया है, जिससे मॉडल की मजबूती बढ़ी है।
व्यापक अनुप्रयोग परिदृश्यों का समर्थन:
व्यापक अनुप्रयोग आवश्यकताओं को पूरा करने के लिए, शोधकर्ताओं ने विभिन्न आकार के मॉडल प्रदान किए हैं, और उनकी सामान्यीकरण क्षमता का उपयोग करके गहराई लेबल के माध्यम से समायोजन किया है।
एक विविध मूल्यांकन मानक का निर्माण किया गया है, जिसमेंSparse गहराई टिप्पणियाँ शामिल हैं, जो भविष्य के शोध को बढ़ावा देती हैं।
सिंथेटिक और वास्तविक छवियों पर आधारित प्रशिक्षण विधियाँ:
शोधकर्ताओं ने पहले सिंथेटिक छवियों पर सबसे बड़े शिक्षक मॉडल का प्रशिक्षण किया, फिर बड़े पैमाने पर बिना चिह्नित वास्तविक छवियों के लिए उच्च गुणवत्ता वाले अर्ध-चिह्न बनाए, और इन अर्ध-चिह्नित वास्तविक छवियों पर छात्र मॉडल का प्रशिक्षण किया।
प्रशिक्षण प्रक्रिया में 595K सिंथेटिक छवियाँ और 62M+ वास्तविक अर्ध-चिह्नित छवियाँ शामिल थीं।
Depth Anything V2 मॉडल का लॉन्च बाइटडांस की गहराई सीखने की तकनीक के क्षेत्र में नवाचार क्षमता को दर्शाता है, इसकी दक्षता और सटीकता के विशेषताएँ इस मॉडल के कंप्यूटर दृष्टि क्षेत्र में व्यापक अनुप्रयोग संभावनाओं का संकेत देती हैं।
प्रोजेक्ट का पता: https://depth-anything-v2.github.io/