AI की दुनिया में, मशीनों को वीडियो समझाना, तस्वीरों को समझाने से कहीं अधिक कठिन है। वीडियो गतिशील होते हैं, ध्वनि होती है, क्रियाएँ होती हैं, और बहुत सारे जटिल दृश्य होते हैं। पहले के AI के लिए, वीडियो देखना ऐसा था जैसे कोई अनजान किताब पढ़ रहा हो, अक्सर यह एक भ्रम में होता था।

लेकिन VideoPrism के आगमन से, शायद यह सब बदलने वाला है। यह एक वीडियो एन्कोडर है जिसे गूगल के शोध दल ने विकसित किया है, जो विभिन्न वीडियो समझने वाले कार्यों पर एक ही मॉडल के साथ अत्याधुनिक स्तर पर पहुँच सकता है। चाहे वीडियो को वर्गीकृत करना हो, स्थान निर्दिष्ट करना हो, या सबटाइटल उत्पन्न करना हो, यहाँ तक कि वीडियो के बारे में सवालों का जवाब देना हो, VideoPrism इसे आसानी से संभाल सकता है।

image.png

VideoPrism को कैसे प्रशिक्षित करें?

VideoPrism को प्रशिक्षित करने की प्रक्रिया, एक छोटे बच्चे को दुनिया देखना सिखाने के समान है। सबसे पहले, आपको इसे विभिन्न प्रकार के वीडियो दिखाने होंगे, दैनिक जीवन से लेकर वैज्ञानिक अवलोकन तक, सब कुछ। फिर, आपको इसे कुछ "उच्च गुणवत्ता" वीडियो-सेट और कुछ शोर वाले समानांतर पाठ (जैसे ऑटोमेटिक स्पीच रिकग्निशन के पाठ) के साथ प्रशिक्षित करना होगा।

पूर्व-प्रशिक्षण विधि

डेटा: VideoPrism ने 3600 लाख उच्च गुणवत्ता वाले वीडियो-सेट और 5820 मिलियन शोर वाले समानांतर पाठ वीडियो क्लिप का उपयोग किया।

मॉडल आर्किटेक्चर: मानक विजुअल ट्रांसफार्मर (ViT) पर आधारित, जो स्थान और समय में कारक डिज़ाइन को अपनाता है।

प्रशिक्षण एल्गोरिदम: वीडियो-टेक्स्ट तुलना प्रशिक्षण और मास्क वीडियो मॉडलिंग के दो चरणों में शामिल हैं।

image.png

प्रशिक्षण प्रक्रिया में, VideoPrism दो चरणों से गुजरता है। पहले चरण में, यह तुलना अध्ययन और वैश्विक-स्थानीय डिस्टिलेशन के माध्यम से वीडियो और टेक्स्ट के बीच संबंध सीखता है। दूसरे चरण में, यह मास्क वीडियो मॉडलिंग के माध्यम से वीडियो सामग्री की समझ को और बढ़ाता है।

शोधकर्ताओं ने VideoPrism का परीक्षण विभिन्न वीडियो समझने वाले कार्यों पर किया, और परिणाम चौंकाने वाले थे। 33 बेंचमार्क परीक्षणों में, VideoPrism ने 30 पर अत्याधुनिक स्तर प्राप्त किया। चाहे वह ऑनलाइन वीडियो प्रश्नों का उत्तर देना हो, या विज्ञान के क्षेत्र में कंप्यूटर दृष्टि कार्य, VideoPrism ने अपनी मजबूत क्षमताएँ दिखाई हैं।

VideoPrism का जन्म AI वीडियो समझने के क्षेत्र में नई संभावनाएँ लेकर आया है। यह न केवल AI को वीडियो सामग्री को बेहतर समझने में मदद कर सकता है, बल्कि शिक्षा, मनोरंजन, सुरक्षा आदि कई क्षेत्रों में महत्वपूर्ण भूमिका निभा सकता है।

लेकिन VideoPrism कुछ चुनौतियों का सामना कर रहा है, जैसे लंबे वीडियो को कैसे संभालना है, और प्रशिक्षण प्रक्रिया के दौरान पूर्वाग्रह को कैसे टालना है। ये सभी भविष्य के शोध के लिए समाधान करने की आवश्यकता वाले प्रश्न हैं।

पेपर का पता: https://arxiv.org/pdf/2402.13217