हाल ही में, Meta AI टीम ने LongVU पेश किया है, जो एक नवीनतम समय-स्थान अनुकूलन संपीड़न तंत्र है, जिसका उद्देश्य लंबे वीडियो की भाषा समझने की क्षमता को बढ़ाना है। पारंपरिक मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) लंबे वीडियो को संभालने में संदर्भ की लंबाई की सीमाओं का सामना करते हैं, जबकि LongVU विशेष रूप से इस समस्या को हल करने के लिए बनाया गया है।
LongVU की कार्यप्रणाली मुख्य रूप से दोहराए गए फ्रेम को फ़िल्टर करने, क्रॉस-फ्रेम टोकन संपीड़न जैसे तरीकों के माध्यम से संदर्भ की लंबाई का कुशलता से उपयोग करने पर निर्भर करती है, जिससे वीडियो के दृश्य विवरण को बनाए रखते हुए वीडियो में अनावश्यक जानकारी को कम किया जा सके।
विशेष रूप से, टीम ने DINOv2 की विशेषताओं का उपयोग करके अत्यधिक समान अनावश्यक फ्रेम को हटाया। इसके बाद, पाठ मार्गदर्शित क्रॉस-मोडल प्रश्नों के माध्यम से, फ्रेम विशेषताओं को चयनात्मक रूप से कम करने का कार्य किया गया।
इसके अलावा, LongVU ने फ्रेम के बीच समय निर्भरता के लिए स्थानिक टोकन संपीड़न की एक नवीनतम संपीड़न रणनीति को लागू किया, जिससे LongVU सीमित संदर्भ की लंबाई में बड़ी संख्या में फ्रेम को प्रभावी ढंग से संभालने में सक्षम हो गया, और लगभग कोई दृश्य जानकारी की हानि नहीं हुई।
विभिन्न वीडियो समझ परीक्षणों में, LongVU का प्रदर्शन मौजूदा अन्य तरीकों से बेहतर रहा, विशेष रूप से एक घंटे तक के वीडियो कार्यों को समझने की आवश्यकता वाले कार्यों में, जैसे VideoMME और MLVU। यहां तक कि हल्के संसाधनों वाले LLM के तहत, LongVU उत्कृष्ट प्रदर्शन दिखा सकता है, और मॉडल का आकार भी छोटा है।
LongVU के अनुप्रयोग उदाहरण में, उपयोगकर्ता सरल प्रश्नों के माध्यम से वीडियो का विस्तृत वर्णन प्राप्त कर सकते हैं। उदाहरण के लिए, यदि उपयोगकर्ता पूछता है "इस वीडियो का क्या हाल है?" LongVU वीडियो में दृश्यों, पात्रों और उनके इंटरैक्शन की सटीक रूप से वर्णन कर सकता है। चाहे वीडियो में वस्तुओं के बारे में सरल प्रश्न हों, या जटिल कथानक का वर्णन, LongVU तेजी से और सटीकता से प्रतिक्रिया प्रदान कर सकता है।
आधिकारिक उदाहरण:
उपयोगकर्ता संकेत: कृपया वीडियो का विस्तृत विवरण प्रदान करें।
LongVU द्वारा दी गई उत्तर: वीडियो एक भविष्यवादी शहर के दृश्य के साथ शुरू होता है रात में, जहां एक मानव जैसे रोबोट अग्रभूमि में खड़ा है, कैमरे की तरफ पीठ करके, रोशन इमारतों और उड़ते हेलीकॉप्टर के साथ। सेटिंग आधुनिक और साइबरपंक तत्वों का मिश्रण है, जिसमें नीयन संकेत और गीली सड़क शहर की रोशनी को परिलक्षित करती है। जैसे-जैसे वीडियो आगे बढ़ता है, रोबोट स्थिर रहता है, हेलीकॉप्टर करीब आता है, अंततः सड़क के ऊपर मंडराते हुए, यह संकेत करता है कि रोबोट और हेलीकॉप्टर के बीच संभावित इंटरैक्शन या घटना हो रही है।
दृश्य फिर एक आंतरिक सेटिंग में बदलता है, संभवतः एक कार्यशाला या गैरेज, जिसमें विभिन्न इलेक्ट्रॉनिक उपकरण और मशीनरी भरी हुई है। रोबोट अब अग्रभूमि में है, कैमरे की तरफ मुंह करके, जबकि पृष्ठभूमि में एक व्यक्ति है, जो एक कथात्मक प्रगति का सुझाव देता है। वातावरण अव्यवस्थित है, प्रकाश नीला रंग फैलाता है, जो तकनीकी विषय को उजागर करता है।
जैसे-जैसे वीडियो आगे बढ़ता है, कैमरा कोण रोबोट को पीछे से दिखाने के लिए बदलता है, जबकि पृष्ठभूमि में व्यक्ति अब अधिक दृश्य है, जो आंदोलन का संकेत देता है। कार्यशाला की सेटिंग स्थिर रहती है, अव्यवस्था और इलेक्ट्रॉनिक उपकरण अपरिवर्तित रहते हैं। प्रकाश और रंग योजना तकनीकी वातावरण को उजागर करना जारी रखते हैं।
फिर दृष्टिकोण रोबोट के साइड व्यू में बदलता है, इसके ढांचे और अव्यवस्थित कार्यशाला के वातावरण को अधिक प्रकट करता है। पृष्ठभूमि में व्यक्ति अब रोबोट के करीब है, जो इंटरैक्शन या उसकी ओर बढ़ने का सुझाव देता है। प्रकाश और रंग योजना स्थिर रहती है, तकनीकी वातावरण को बनाए रखते हुए।
अंत में, कैमरा रोबोट पर ज़ूम करता है, इसके ऊपरी शरीर और आंतरिक घटकों के जटिल विवरण पर ध्यान केंद्रित करता है। अव्यवस्थित कार्यशाला का वातावरण कम दृश्य होता है, प्रकाश नीला रंग फैलाता है, जो तकनीकी विषय को उजागर करता है। कैमरे का क्लोज़-अप शॉट रोबोट के डिज़ाइन और इसके आंतरिक तंत्र की जटिलता को उजागर करता है, जो रोबोट के आंतरिक कार्यों या तकनीकी सेटिंग में इसकी भूमिका पर एक कथात्मक ध्यान केंद्रित करता है।
लंबे वीडियो सामग्री की तेज़ वृद्धि अधिक कुशल प्रसंस्करण विधियों की आवश्यकता है, LongVU का लॉन्च निश्चित रूप से मल्टी-मोडल समझ के क्षेत्र में नई संभावनाएं लाता है।
परियोजना का प्रवेश: https://vision-cair.github.io/LongVU/
मुख्य बिंदु:
1. 📽️ LongVU एक नई प्रकार का समय-स्थान अनुकूलन संपीड़न तंत्र है, जिसका उद्देश्य लंबे वीडियो की भाषा समझने की क्षमता को बढ़ाना है।
2. 🔍 यह तकनीक DINOv2 विशेषताओं का उपयोग करके अनावश्यक फ्रेम को हटाती है, और क्रॉस-मोडल प्रश्नों के माध्यम से विशेषताओं का चयनात्मक संपीड़न करती है।
3. 🚀 LongVU विभिन्न वीडियो समझ परीक्षणों में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से लंबे वीडियो समझने के कार्यों में, अन्य तरीकों को पार करता है।