हाल ही में, Salesforce AI अनुसंधान टीम ने एक नई बहु-मोडल भाषा मॉडल ——BLIP-3-Video पेश किया है। वीडियो सामग्री की तेज़ी से बढ़ती मात्रा के साथ, वीडियो डेटा को प्रभावी ढंग से संसाधित करने का तरीका एक महत्वपूर्ण समस्या बन गई है। इस मॉडल का उद्देश्य वीडियो की समझने की क्षमता और प्रभावशीलता को बढ़ाना है, जो स्वचालित ड्राइविंग से लेकर मनोरंजन तक विभिन्न उद्योगों में उपयुक्त है।

image.png

परंपरागत वीडियो समझने वाले मॉडल अक्सर वीडियो को फ्रेम दर फ्रेम संसाधित करते हैं, जिससे विशाल मात्रा में दृश्य जानकारी उत्पन्न होती है। यह प्रक्रिया न केवल बड़ी मात्रा में गणना संसाधनों का उपभोग करती है, बल्कि लंबे वीडियो को संसाधित करने की क्षमता को भी बहुत सीमित करती है। जैसे-जैसे वीडियो डेटा की मात्रा बढ़ती जा रही है, यह तरीका और भी कम प्रभावी होता जा रहा है, इसलिए एक ऐसा समाधान खोजना जो वीडियो की महत्वपूर्ण जानकारी को पकड़ सके और गणना का बोझ कम कर सके, अत्यंत महत्वपूर्ण है।

इस संदर्भ में, BLIP-3-Video ने काफी अच्छा प्रदर्शन किया है। इस मॉडल ने "कालक्रम एन्कोडर" को शामिल करके वीडियो में आवश्यक दृश्य जानकारी की मात्रा को 16 से 32 दृश्य संकेतों तक कम करने में सफलता हासिल की है। इस नवोन्मेषी डिज़ाइन ने गणना की दक्षता को काफी बढ़ा दिया है, जिससे मॉडल जटिल वीडियो कार्यों को कम लागत पर पूरा कर सकता है। यह कालक्रम एन्कोडर एक सीखने योग्य समय-स्थान ध्यान पूलिंग तंत्र का उपयोग करता है, जो प्रत्येक फ्रेम से सबसे महत्वपूर्ण जानकारी को निकालता है और इसे एक संक्षिप्त दृश्य संकेत सेट में एकीकृत करता है।

image.png

BLIP-3-Video का प्रदर्शन भी बहुत उत्कृष्ट है। अन्य बड़े मॉडलों के साथ तुलना करने पर, शोध ने पाया कि इस मॉडल की वीडियो प्रश्न-उत्तर कार्य में सटीकता शीर्ष मॉडलों के समान है। उदाहरण के लिए, Tarsier-34B मॉडल को 8 फ्रेम वीडियो संसाधित करने के लिए 4608 संकेतों की आवश्यकता होती है, जबकि BLIP-3-Video केवल 32 संकेतों के साथ 77.7% MSVD-QA बेंचमार्क स्कोर प्राप्त कर सकता है। यह दिखाता है कि BLIP-3-Video उच्च प्रदर्शन बनाए रखते हुए संसाधनों की खपत को काफी कम करता है।

image.png

इसके अलावा, BLIP-3-Video ने बहुविकल्पीय प्रश्न-उत्तर कार्य में भी अच्छा प्रदर्शन किया है। NExT-QA डेटा सेट में, मॉडल ने 77.1% का उच्च स्कोर प्राप्त किया, जबकि TGIF-QA डेटा सेट में भी 77.1% की सटीकता हासिल की। ये आंकड़े दिखाते हैं कि BLIP-3-Video जटिल वीडियो समस्याओं को हल करने में कितना कुशल है।

image.png

BLIP-3-Video ने नवोन्मेषी कालक्रम एन्कोडर के माध्यम से वीडियो प्रसंस्करण क्षेत्र में नए संभावनाओं का द्वार खोला है। इस मॉडल की पेशकश न केवल वीडियो की समझने की दक्षता को बढ़ाती है, बल्कि भविष्य के वीडियो अनुप्रयोगों के लिए और भी संभावनाएं प्रदान करती है।

प्रोजेक्ट लिंक: https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

मुख्य बातें:

- 🚀 ** नई मॉडल रिलीज **: Salesforce AI अनुसंधान ने BLIP-3-Video, एक बहु-मोडल भाषा मॉडल, वीडियो प्रसंस्करण पर ध्यान केंद्रित करते हुए पेश किया।

- ⚡ ** कुशल प्रसंस्करण **: कालक्रम एन्कोडर का उपयोग करते हुए, आवश्यक दृश्य संकेतों की संख्या को काफी कम किया गया है, जिससे गणना की दक्षता में उल्लेखनीय वृद्धि हुई है।

- 📈 ** उत्कृष्ट प्रदर्शन **: वीडियो प्रश्न-उत्तर कार्य में उत्कृष्ट प्रदर्शन करते हुए, उच्च सटीकता बनाए रखते हुए संसाधनों की खपत को कम किया गया है।