हाल ही में, Salesforce AI अनुसंधान टीम ने एक नई बहु-मोडल भाषा मॉडल ——BLIP-3-Video पेश किया है। वीडियो सामग्री की तेज़ी से बढ़ती मात्रा के साथ, वीडियो डेटा को प्रभावी ढंग से संसाधित करने का तरीका एक महत्वपूर्ण समस्या बन गई है। इस मॉडल का उद्देश्य वीडियो की समझने की क्षमता और प्रभावशीलता को बढ़ाना है, जो स्वचालित ड्राइविंग से लेकर मनोरंजन तक विभिन्न उद्योगों में उपयुक्त है।
परंपरागत वीडियो समझने वाले मॉडल अक्सर वीडियो को फ्रेम दर फ्रेम संसाधित करते हैं, जिससे विशाल मात्रा में दृश्य जानकारी उत्पन्न होती है। यह प्रक्रिया न केवल बड़ी मात्रा में गणना संसाधनों का उपभोग करती है, बल्कि लंबे वीडियो को संसाधित करने की क्षमता को भी बहुत सीमित करती है। जैसे-जैसे वीडियो डेटा की मात्रा बढ़ती जा रही है, यह तरीका और भी कम प्रभावी होता जा रहा है, इसलिए एक ऐसा समाधान खोजना जो वीडियो की महत्वपूर्ण जानकारी को पकड़ सके और गणना का बोझ कम कर सके, अत्यंत महत्वपूर्ण है।
इस संदर्भ में, BLIP-3-Video ने काफी अच्छा प्रदर्शन किया है। इस मॉडल ने "कालक्रम एन्कोडर" को शामिल करके वीडियो में आवश्यक दृश्य जानकारी की मात्रा को 16 से 32 दृश्य संकेतों तक कम करने में सफलता हासिल की है। इस नवोन्मेषी डिज़ाइन ने गणना की दक्षता को काफी बढ़ा दिया है, जिससे मॉडल जटिल वीडियो कार्यों को कम लागत पर पूरा कर सकता है। यह कालक्रम एन्कोडर एक सीखने योग्य समय-स्थान ध्यान पूलिंग तंत्र का उपयोग करता है, जो प्रत्येक फ्रेम से सबसे महत्वपूर्ण जानकारी को निकालता है और इसे एक संक्षिप्त दृश्य संकेत सेट में एकीकृत करता है।
BLIP-3-Video का प्रदर्शन भी बहुत उत्कृष्ट है। अन्य बड़े मॉडलों के साथ तुलना करने पर, शोध ने पाया कि इस मॉडल की वीडियो प्रश्न-उत्तर कार्य में सटीकता शीर्ष मॉडलों के समान है। उदाहरण के लिए, Tarsier-34B मॉडल को 8 फ्रेम वीडियो संसाधित करने के लिए 4608 संकेतों की आवश्यकता होती है, जबकि BLIP-3-Video केवल 32 संकेतों के साथ 77.7% MSVD-QA बेंचमार्क स्कोर प्राप्त कर सकता है। यह दिखाता है कि BLIP-3-Video उच्च प्रदर्शन बनाए रखते हुए संसाधनों की खपत को काफी कम करता है।
इसके अलावा, BLIP-3-Video ने बहुविकल्पीय प्रश्न-उत्तर कार्य में भी अच्छा प्रदर्शन किया है। NExT-QA डेटा सेट में, मॉडल ने 77.1% का उच्च स्कोर प्राप्त किया, जबकि TGIF-QA डेटा सेट में भी 77.1% की सटीकता हासिल की। ये आंकड़े दिखाते हैं कि BLIP-3-Video जटिल वीडियो समस्याओं को हल करने में कितना कुशल है।
BLIP-3-Video ने नवोन्मेषी कालक्रम एन्कोडर के माध्यम से वीडियो प्रसंस्करण क्षेत्र में नए संभावनाओं का द्वार खोला है। इस मॉडल की पेशकश न केवल वीडियो की समझने की दक्षता को बढ़ाती है, बल्कि भविष्य के वीडियो अनुप्रयोगों के लिए और भी संभावनाएं प्रदान करती है।
प्रोजेक्ट लिंक: https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html
मुख्य बातें:
- 🚀 ** नई मॉडल रिलीज **: Salesforce AI अनुसंधान ने BLIP-3-Video, एक बहु-मोडल भाषा मॉडल, वीडियो प्रसंस्करण पर ध्यान केंद्रित करते हुए पेश किया।
- ⚡ ** कुशल प्रसंस्करण **: कालक्रम एन्कोडर का उपयोग करते हुए, आवश्यक दृश्य संकेतों की संख्या को काफी कम किया गया है, जिससे गणना की दक्षता में उल्लेखनीय वृद्धि हुई है।
- 📈 ** उत्कृष्ट प्रदर्शन **: वीडियो प्रश्न-उत्तर कार्य में उत्कृष्ट प्रदर्शन करते हुए, उच्च सटीकता बनाए रखते हुए संसाधनों की खपत को कम किया गया है।