वर्तमान में, मल्टी-मोडल बड़े भाषा मॉडल (MLLM) वीडियो समझ के क्षेत्र में महत्वपूर्ण प्रगति कर चुके हैं, लेकिन अत्यधिक लंबे वीडियो को संभालना अभी भी एक चुनौती है। इसका कारण यह है कि, MLLM आमतौर पर अधिकतम संदर्भ लंबाई से अधिक हजारों दृश्य संकेतों को संभालने में कठिनाई महसूस करते हैं, और संकेतों के समेकन के कारण सूचना में कमी का सामना करते हैं। साथ ही, बड़ी संख्या में वीडियो संकेतों के कारण उच्च गणना लागत भी आती है।

इन समस्याओं को हल करने के लिए, ज़िज़ुआन अनुसंधान संस्थान ने शंघाई जियाओटोंग विश्वविद्यालय, चीन人民大学, पेकिंग विश्वविद्यालय और बीजिंग邮电大学 सहित कई विश्वविद्यालयों के साथ मिलकर Video-XL पेश किया है, जो कि घंटे-स्तरीय वीडियो समझ के लिए विशेष रूप से डिज़ाइन किया गया एक सुपर लंबे दृश्य भाषा मॉडल है। Video-XL का मुख्य तत्व "दृश्य संदर्भ संभावित सारांश" तकनीक है, जो LLM की अंतर्निहित संदर्भ मॉडलिंग क्षमताओं का उपयोग करते हुए लंबे दृश्य प्रतिनिधित्व को प्रभावी ढंग से अधिक संक्षिप्त रूप में संकुचित करता है।

image.png

सरल शब्दों में, इसका मतलब है कि वीडियो सामग्री को अधिक संक्षिप्त रूप में संकुचित किया जा रहा है, जैसे कि एक पूरे बैल को एक कटोरी मांस के सूप में संकुचित करना, जिससे मॉडल के लिए इसे पचाना और अवशोषित करना आसान हो जाए।

यह संकुचन तकनीक न केवल दक्षता में सुधार करती है, बल्कि वीडियो की प्रमुख जानकारी को प्रभावी रूप से बनाए रखती है। यह जानना महत्वपूर्ण है कि लंबे वीडियो में अक्सर अत्यधिक अतिरिक्त जानकारी होती है, जैसे कि एक बूढ़ी महिला के पैर की लपेटने वाली कपड़ा, जो लंबी और बदबूदार होती है। Video-XL इन बेकार जानकारी को सटीकता से हटा सकता है, केवल महत्वपूर्ण भागों को बनाए रखता है, जिससे यह सुनिश्चित होता है कि मॉडल लंबे वीडियो सामग्री को समझते समय दिशा न खोए।

image.png

Video-XL न केवल सिद्धांत में प्रभावशाली है, बल्कि इसकी व्यावहारिक क्षमता भी काफी मजबूत है। कई लंबे वीडियो समझ मानक परीक्षणों में, Video-XL ने प्रमुख परिणाम प्राप्त किए हैं, विशेष रूप से VNBench परीक्षण में, इसकी सटीकता मौजूदा सर्वोत्तम विधियों की तुलना में लगभग 10% अधिक है।

और भी प्रभावशाली बात यह है कि Video-XL ने दक्षता और प्रभावशीलता के बीच एक आश्चर्यजनक संतुलन स्थापित किया है, यह एकल 80GB GPU पर 2048 फ्रेम वीडियो को संभाल सकता है, जबकि "सागर में सुई" मूल्यांकन में लगभग 95% सटीकता बनाए रख सकता है।

Video-XL के अनुप्रयोग की संभावनाएं भी बहुत व्यापक हैं। यह न केवल सामान्य लंबे वीडियो को समझ सकता है, बल्कि कुछ विशेष कार्यों को भी संभाल सकता है, जैसे कि फिल्म सारांश, निगरानी में असामान्य घटनाओं का पता लगाना और विज्ञापन समावेशन पहचानना।

इसका मतलब है कि भविष्य में फिल्में देखने के लिए लंबे कथानक का सामना नहीं करना पड़ेगा, सीधे Video-XL का उपयोग करके एक संक्षिप्त सारांश उत्पन्न किया जा सकता है, जिससे समय और प्रयास की बचत होती है; या इसका उपयोग निगरानी चित्रों की निगरानी के लिए किया जा सकता है, स्वचालित रूप से असामान्य घटनाओं की पहचान करना, जो मैन्युअल निगरानी की तुलना में कहीं अधिक प्रभावी है।

प्रोजेक्ट पता: https://github.com/VectorSpaceLab/Video-XL

पेपर: https://arxiv.org/pdf/2409.14485