मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) के विकास के साथ, छवि और वीडियो संबंधित कार्यों में क्रांतिकारी प्रगति हुई है, जिसमें दृश्य प्रश्न-उत्तर, वर्णन उत्पन्न करना और इंटरएक्टिव संपादन शामिल हैं। हालांकि, सूक्ष्म-स्तरीय वीडियो सामग्री की समझ हासिल करना अभी भी महत्वपूर्ण चुनौतियों का सामना कर रहा है। यह चुनौती पिक्सेल-स्तरीय विभाजन, भाषाई विवरण के साथ ट्रैकिंग, और विशिष्ट वीडियो संकेतों पर दृश्य प्रश्न-उत्तर जैसे कार्यों से संबंधित है।
हालांकि वर्तमान में सबसे उन्नत वीडियो संवेदन मॉडल विभाजन और ट्रैकिंग कार्यों में उत्कृष्टता दिखाते हैं, लेकिन वे खुले भाषा समझ और संवाद क्षमताओं में अभी भी कमज़ोर हैं। इसके अलावा, वीडियो MLLMs वीडियो समझ और प्रश्न-उत्तर कार्यों में अच्छा प्रदर्शन करते हैं, लेकिन संवेदन कार्यों और दृश्य संकेतों को संभालने में अभी भी संघर्ष कर रहे हैं।
वर्तमान समाधान मुख्य रूप से दो प्रकार के हैं: मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) और संदर्भ विभाजन प्रणाली। MLLMs का प्राथमिक उद्देश्य मल्टी-मोडल फ्यूजन विधियों और विशेषताओं के निष्कर्षण में सुधार करना था, जो धीरे-धीरे LLMs पर निर्देश अनुकूलन के ढांचे में विकसित हुआ, जैसे LLaVA। हाल ही में, शोधकर्ताओं ने छवि, वीडियो और बहु-छवि विश्लेषण को एकल ढांचे में एकीकृत करने का प्रयास किया, जैसे LLaVA-OneVision। इसी समय, संदर्भ विभाजन प्रणाली ने मूल फ्यूजन मॉड्यूल से लेकर एकीकृत विभाजन और ट्रैकिंग तक का परिवर्तन देखा है। हालाँकि, इन समाधानों में संवेदन और भाषा समझ क्षमताओं के समग्र एकीकरण में अभी भी कमी है।
UC Merced, ByteDance सीड टीम, वुहान विश्वविद्यालय और पीकिंग विश्वविद्यालय के शोधकर्ताओं ने Sa2VA प्रस्तुत किया, जो एक क्रांतिकारी एकीकृत मॉडल है, जिसका उद्देश्य छवि और वीडियो की गहन मूल समझ को प्राप्त करना है। यह मॉडल एक बार के निर्देश अनुकूलन को न्यूनतम करके व्यापक छवि और वीडियो कार्यों का समर्थन करता है, जो मौजूदा मल्टी-मोडल बड़े भाषा मॉडल की सीमाओं को पार करता है।
Sa2VA नवोन्मेषी रूप से SAM-2 को LLaVA के साथ एकीकृत करता है, पाठ, छवि और वीडियो को साझा LLM टोकन स्थान में एकीकृत करता है। इसके अतिरिक्त, शोधकर्ताओं ने Ref-SAV नामक एक व्यापक स्वचालित लेबलिंग डेटा सेट प्रस्तुत किया, जिसमें 72K से अधिक जटिल वीडियो दृश्यों में वस्तुओं के प्रतिनिधित्व और 2K मानव-सत्यापित वीडियो वस्तुएं शामिल हैं, ताकि मजबूत बेंचमार्क क्षमताओं को सुनिश्चित किया जा सके।
Sa2VA की संरचना मुख्य रूप से दो भागों में विभाजित है: LLaVA के समान मॉडल और SAM-2, जिसमें एक नई तरह की डिकपल्ड डिज़ाइन का उपयोग किया गया है। LLaVA-प्रकार का घटक छवि और वीडियो को संसाधित करने वाले दृश्य एन्कोडर, दृश्य प्रक्षिप्ति परत और पाठ टोकन भविष्यवाणी के लिए LLM शामिल है। यह प्रणाली एक अनूठे डिकपल्ड तरीके का उपयोग करती है, जिससे SAM-2 पूर्व-प्रशिक्षित LLaVA मॉडल के बगल में कार्य करता है, बिना सीधे टोकन का आदान-प्रदान किए, जिससे गणनात्मक दक्षता बनी रहती है और विभिन्न पूर्व-प्रशिक्षित MLLMs के साथ प्लग-इन कार्यात्मकता कनेक्शन की अनुमति मिलती है।
शोध के परिणाम बताते हैं कि Sa2VA संदर्भ विभाजन कार्यों में सबसे उन्नत परिणाम प्राप्त करता है, इसके Sa2VA-8B मॉडल ने RefCOCO, RefCOCO + और RefCOCOg पर क्रमशः 81.6, 76.2 और 78.9 के cIoU स्कोर प्राप्त किए, जो GLaMM-7B जैसे पिछले सिस्टम को पार करता है। संवाद क्षमताओं के मामले में, Sa2VA ने MME, MMbench और SEED-Bench पर क्रमशः 2128, 81.6 और 75.1 के उत्कृष्ट परिणाम प्राप्त किए।
इसके अलावा, Sa2VA ने वीडियो बेंचमार्किंग में पिछले स्टेट-ऑफ-द-आर्ट VISA-13B को भी काफी पीछे छोड़ दिया, जो इसकी छवि और वीडियो समझ कार्यों में दक्षता और प्रभावशीलता को दर्शाता है।
पेपर: https://arxiv.org/abs/2501.04001
मॉडल: https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093
मुख्य बिंदु:
🌟 Sa2VA एक नवीनतम एकीकृत AI ढांचा है, जो छवि और वीडियो की गहन समझ को प्राप्त करता है, जो मौजूदा मल्टी-मोडल मॉडलों की सीमाओं को पार करता है।
📊 यह मॉडल संदर्भ विभाजन और संवाद क्षमताओं जैसे कई बेंचमार्क परीक्षणों में सबसे उन्नत परिणाम प्राप्त करता है, जो उत्कृष्ट प्रदर्शन को प्रदर्शित करता है।
🧠 Sa2VA का डिज़ाइन डिकपल्ड तरीके से दृश्य और भाषा समझ क्षमताओं को प्रभावी ढंग से एकीकृत करता है, जो व्यापक छवि और वीडियो कार्यों का समर्थन करता है।