हाल ही में, मेटा एआई टीम ने वीडियो संयुक्त एम्बेडिंग भविष्यवाणी ढांचा (V-JEPA) मॉडल पेश किया, जो मशीन इंटेलिजेंस के विकास को बढ़ावा देने के लिए एक नवोन्मेषी कदम है। मानव स्वाभाविक रूप से दृश्य संकेतों से जानकारी को संसाधित कर सकते हैं, जिससे वे अपने चारों ओर की वस्तुओं और गति पैटर्न की पहचान कर सकते हैं। मशीन लर्निंग का एक महत्वपूर्ण लक्ष्य उन मूल सिद्धांतों को उजागर करना है जो मानवों को बिना पर्यवेक्षण के सीखने के लिए प्रेरित करते हैं। शोधकर्ताओं ने एक महत्वपूर्ण धारणा प्रस्तुत की - भविष्यवाणी विशेषताओं का सिद्धांत, जिसमें कहा गया है कि निरंतर संवेदनात्मक इनपुट का प्रतिनिधित्व एक-दूसरे की भविष्यवाणी करने में सक्षम होना चाहिए।
पूर्व के शोध विधियों ने समय की स्थिरता बनाए रखने के लिए धीमी विशेषताओं के विश्लेषण और स्पेक्ट्रल तकनीकों का उपयोग किया, ताकि प्रतिनिधित्व का विघटन रोका जा सके। जबकि अब कई नई विधियाँ तुलना अध्ययन और मास्किंग मॉडलिंग को जोड़ती हैं, यह सुनिश्चित करती हैं कि प्रतिनिधित्व समय के साथ लगातार विकसित हो सके। आधुनिक तकनीकें केवल समय की अपरिवर्तनीयता पर ध्यान केंद्रित नहीं करती हैं, बल्कि भविष्यवाणी नेटवर्क को प्रशिक्षित करके विभिन्न समय बिंदुओं के विशेषताओं के संबंध को मानचित्रित करती हैं, जिससे प्रदर्शन में सुधार होता है। वीडियो डेटा के लिए, समय-स्थान मास्किंग के अनुप्रयोग ने प्रतिनिधित्व सीखने की गुणवत्ता को और बढ़ा दिया है।
मेटा की शोध टीम ने कई प्रसिद्ध संस्थानों के साथ सहयोग किया है, ताकि V-JEPA मॉडल विकसित किया जा सके। यह मॉडल विशेषता भविष्यवाणी पर केंद्रित है और बिना पर्यवेक्षण के वीडियो सीखने पर ध्यान केंद्रित करता है, जो पारंपरिक विधियों से अलग है क्योंकि यह पूर्व-प्रशिक्षित एन्कोडर, नकारात्मक नमूने, पुनर्निर्माण या पाठ पर्यवेक्षण पर निर्भर नहीं करता है। V-JEPA ने प्रशिक्षण प्रक्रिया में दो मिलियन सार्वजनिक वीडियो का उपयोग किया और गति और उपस्थिति कार्यों पर महत्वपूर्ण प्रदर्शन प्राप्त किया, और इसे ट्यूनिंग की आवश्यकता नहीं थी।
V-JEPA की प्रशिक्षण विधि वीडियो डेटा के माध्यम से वस्तु-केंद्रित सीखने के मॉडल का निर्माण करती है। सबसे पहले, न्यूरल नेटवर्क वीडियो फ़्रेम से वस्तु-केंद्रित प्रतिनिधित्व निकालता है, जो गति और उपस्थिति विशेषताओं को कैप्चर करता है। इन प्रतिनिधित्वों को तुलना अध्ययन के माध्यम से और बढ़ाया जाता है, ताकि वस्तुओं की विभेदनशीलता में सुधार हो सके। इसके बाद, ट्रांसफार्मर आधारित आर्किटेक्चर इन प्रतिनिधित्वों को संसाधित करता है, ताकि वस्तुओं के बीच समय इंटरैक्शन का अनुकरण किया जा सके। पूरा ढांचा बड़े पैमाने पर डेटा सेट के प्रशिक्षण के माध्यम से पुनर्निर्माण सटीकता और क्रॉस-फ्रेम संगतता को अनुकूलित करने के लिए प्रशिक्षित किया गया है।
V-JEPA ने पिक्सेल भविष्यवाणी विधियों के साथ तुलना में उत्कृष्ट प्रदर्शन किया, विशेष रूप से फ्रीज्ड मूल्यांकन में, केवल ImageNet वर्गीकरण कार्य में थोड़ी कमी के साथ। ट्यूनिंग के बाद, V-JEPA ने कम प्रशिक्षण नमूनों का उपयोग करते हुए ViT-L/16 मॉडल पर आधारित अन्य विधियों को पार कर लिया। V-JEPA ने गति समझ और वीडियो कार्यों में उत्कृष्ट प्रदर्शन किया, प्रशिक्षण दक्षता अधिक है, और कम नमूना सेटिंग में भी सटीकता बनाए रखी।
यह अध्ययन बिना पर्यवेक्षण के वीडियो सीखने के स्वतंत्र लक्ष्य के रूप में विशेषता भविष्यवाणी की प्रभावशीलता को प्रदर्शित करता है, V-JEPA विभिन्न प्रकार के चित्र और वीडियो कार्यों में उत्कृष्ट प्रदर्शन करता है, और बिना पैरामीटर अनुकूलन के पिछले वीडियो प्रतिनिधित्व विधियों को पार करता है। V-JEPA सूक्ष्म गति विवरण को कैप्चर करने में लाभकारी है, जो वीडियो समझ में इसकी क्षमता को दर्शाता है।
पत्र: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
ब्लॉग: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
मुख्य बिंदु:
📽️ V-JEPA मॉडल मेटा एआई द्वारा पेश किया गया एक नया वीडियो सीखने का मॉडल है, जो बिना पर्यवेक्षण के विशेषता भविष्यवाणी पर ध्यान केंद्रित करता है।
🔍 यह मॉडल पारंपरिक पूर्व-प्रशिक्षित एन्कोडर और पाठ पर्यवेक्षण पर निर्भर नहीं करता है, सीधे वीडियो डेटा से सीखता है।
⚡ V-JEPA वीडियो कार्यों और कम नमूना सीखने में उत्कृष्ट प्रदर्शन करता है, जो इसकी कुशल प्रशिक्षण क्षमता और मजबूत प्रतिनिधित्व क्षमता को दर्शाता है।