हाल ही में, सिंगापुर नेशनल यूनिवर्सिटी के वेनयी यू और उनकी टीम ने एक नई तकनीक प्रस्तुत की है जिसे वीडियो-SALMONN कहा जाता है, जो न केवल वीडियो में दृश्य फ्रेम अनुक्रम, ऑडियो घटनाओं और संगीत को समझने में सक्षम है, बल्कि सबसे महत्वपूर्ण बात यह है कि यह वीडियो में आवाज़ की सामग्री को भी समझने में सक्षम है। इस तकनीक का विकास मशीनों को वीडियो सामग्री समझने में एक महत्वपूर्ण कदम दर्शाता है।

वीडियो-SALMONN एक एंड-टू-एंड ऑडियो-वीज़ुअल बड़े भाषा मॉडल (av-LLM) है, जो एक नवीनतम मल्टी-रेज़ोल्यूशन कारण Q-Former (MRC Q-Former) संरचना के माध्यम से पूर्व-प्रशिक्षित ऑडियो-वीडियो एन्कोडर्स को बड़े भाषा मॉडल के मुख्य भाग से जोड़ता है। यह संरचना न केवल आवाज़ की समझ के लिए आवश्यक सूक्ष्म समय जानकारी को पकड़ने में सक्षम है, बल्कि अन्य वीडियो तत्वों की प्रभावी प्रक्रिया को भी सुनिश्चित करती है।

image.png

मॉडल के विभिन्न वीडियो तत्वों के संतुलित उपचार को बढ़ाने के लिए, शोध टीम ने विशेष प्रशिक्षण विधियों का प्रस्ताव रखा, जिसमें विविधता हानि और असमान ऑडियो-वीडियो मिश्रण प्रशिक्षण रणनीतियाँ शामिल हैं, ताकि वीडियो फ्रेम या मोड का प्रभुत्व से बचा जा सके।

नए पेश किए गए आवाज़-ऑडियो-वीज़ुअल मूल्यांकन मानक (SAVE) पर, वीडियो-SALMONN ने वीडियो प्रश्नोत्तर (video-QA) कार्य पर 25% से अधिक की सटीकता में सुधार हासिल किया है, जबकि मानव आवाज़ से संबंधित ऑडियो-वीडियो प्रश्नोत्तर कार्य में 30% से अधिक की सटीकता में सुधार प्राप्त किया है। इसके अलावा, वीडियो-SALMONN ने अन्य av-LLMs के लिए पहले कभी नहीं देखे गए कार्यों में उत्कृष्ट वीडियो समझ और तर्क क्षमता का प्रदर्शन किया है।

वीडियो-SALMONN का मूल मल्टी-रेज़ोल्यूशन कारण (MRC) Q-Former संरचना है, जो तीन विभिन्न समय स्केल पर समन्वयित ऑडियो-वीडियो इनपुट विशेषताओं और पाठ प्रतिनिधित्व स्थान के साथ मेल खाती है, विभिन्न कार्यों के लिए विभिन्न वीडियो तत्वों की निर्भरता आवश्यकताओं को पूरा करती है। इसके अतिरिक्त, लगातार वीडियो फ्रेमों के बीच समय कारण संबंध को मजबूत करने के लिए, MRC Q-Former में विशेष कारण मास्क के साथ कारण आत्म-ध्यान संरचना शामिल की गई है।

वीडियो-SALMONN का विकास न केवल अकादमिक क्षेत्र में नए अनुसंधान उपकरण लाता है, बल्कि व्यावहारिक अनुप्रयोगों के लिए भी व्यापक संभावनाएँ प्रदान करता है। यह तकनीक और मानव के बीच इंटरैक्शन को और अधिक स्वाभाविक और सहज बनाती है, उपयोगकर्ताओं के लिए, विशेषकर बच्चों और वृद्ध लोगों के लिए, तकनीक का उपयोग करना आसान बनाती है। साथ ही, इसमें तकनीक की पहुंच को बढ़ाने की क्षमता है, जिसमें गतिशीलता बाधित करने वाले व्यक्ति भी शामिल हैं।

वीडियो-SALMONN का विकास सामान्य कृत्रिम बुद्धिमत्ता (AGI) की दिशा में एक महत्वपूर्ण कदम है। आवाज़ इनपुट और मौजूदा गैर-आवाज़ ऑडियो और दृश्य इनपुट को एकीकृत करके, ऐसा मॉडल मानव इंटरैक्शन और वातावरण की व्यापक समझ प्राप्त करेगा, जिससे इसे अधिक व्यापक क्षेत्रों में लागू किया जा सकेगा।

इस तकनीक का विकास निश्चित रूप से वीडियो सामग्री के विश्लेषण, शैक्षिक अनुप्रयोगों, और लोगों की जीवन गुणवत्ता को बढ़ाने पर गहरा प्रभाव डालेगा। तकनीक की निरंतर प्रगति के साथ, हमें विश्वास है कि भविष्य की AI और अधिक बुद्धिमान होगी, और मानव की आवश्यकताओं के करीब होगी।

पेपर का पता: https://arxiv.org/html/2406.15704v1