Salesforce AI अनुसंधान ने प्रस्तुत किया नया मल्टीमॉडल मॉडल BLIP-3-Video: कम लागत में वीडियो समझ

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Oct 25, 2024

119

हाल ही में, Salesforce AI अनुसंधान टीम ने एक नई बहु-मोडल भाषा मॉडल ——BLIP-3-Video पेश किया है। वीडियो सामग्री की तेज़ी से बढ़ती मात्रा के साथ, वीडियो डेटा को प्रभावी ढंग से संसाधित करने का तरीका एक महत्वपूर्ण समस्या बन गई है। इस मॉडल का उद्देश्य वीडियो की समझने की क्षमता और प्रभावशीलता को बढ़ाना है, जो स्वचालित ड्राइविंग से लेकर मनोरंजन तक विभिन्न उद्योगों में उपयुक्त है।

परंपरागत वीडियो समझने वाले मॉडल अक्सर वीडियो को फ्रेम दर फ्रेम संसाधित करते हैं, जिससे विशाल मात्रा में दृश्य जानकारी उत्पन्न होती है। यह प्रक्रिया न केवल बड़ी मात्रा में गणना संसाधनों का उपभोग करती है, बल्कि लंबे वीडियो को संसाधित करने की क्षमता को भी बहुत सीमित करती है। जैसे-जैसे वीडियो डेटा की मात्रा बढ़ती जा रही है, यह तरीका और भी कम प्रभावी होता जा रहा है, इसलिए एक ऐसा समाधान खोजना जो वीडियो की महत्वपूर्ण जानकारी को पकड़ सके और गणना का बोझ कम कर सके, अत्यंत महत्वपूर्ण है।

इस संदर्भ में, BLIP-3-Video ने काफी अच्छा प्रदर्शन किया है। इस मॉडल ने "कालक्रम एन्कोडर" को शामिल करके वीडियो में आवश्यक दृश्य जानकारी की मात्रा को 16 से 32 दृश्य संकेतों तक कम करने में सफलता हासिल की है। इस नवोन्मेषी डिज़ाइन ने गणना की दक्षता को काफी बढ़ा दिया है, जिससे मॉडल जटिल वीडियो कार्यों को कम लागत पर पूरा कर सकता है। यह कालक्रम एन्कोडर एक सीखने योग्य समय-स्थान ध्यान पूलिंग तंत्र का उपयोग करता है, जो प्रत्येक फ्रेम से सबसे महत्वपूर्ण जानकारी को निकालता है और इसे एक संक्षिप्त दृश्य संकेत सेट में एकीकृत करता है।

BLIP-3-Video का प्रदर्शन भी बहुत उत्कृष्ट है। अन्य बड़े मॉडलों के साथ तुलना करने पर, शोध ने पाया कि इस मॉडल की वीडियो प्रश्न-उत्तर कार्य में सटीकता शीर्ष मॉडलों के समान है। उदाहरण के लिए, Tarsier-34B मॉडल को 8 फ्रेम वीडियो संसाधित करने के लिए 4608 संकेतों की आवश्यकता होती है, जबकि BLIP-3-Video केवल 32 संकेतों के साथ 77.7% MSVD-QA बेंचमार्क स्कोर प्राप्त कर सकता है। यह दिखाता है कि BLIP-3-Video उच्च प्रदर्शन बनाए रखते हुए संसाधनों की खपत को काफी कम करता है।

इसके अलावा, BLIP-3-Video ने बहुविकल्पीय प्रश्न-उत्तर कार्य में भी अच्छा प्रदर्शन किया है। NExT-QA डेटा सेट में, मॉडल ने 77.1% का उच्च स्कोर प्राप्त किया, जबकि TGIF-QA डेटा सेट में भी 77.1% की सटीकता हासिल की। ये आंकड़े दिखाते हैं कि BLIP-3-Video जटिल वीडियो समस्याओं को हल करने में कितना कुशल है।

BLIP-3-Video ने नवोन्मेषी कालक्रम एन्कोडर के माध्यम से वीडियो प्रसंस्करण क्षेत्र में नए संभावनाओं का द्वार खोला है। इस मॉडल की पेशकश न केवल वीडियो की समझने की दक्षता को बढ़ाती है, बल्कि भविष्य के वीडियो अनुप्रयोगों के लिए और भी संभावनाएं प्रदान करती है।

प्रोजेक्ट लिंक: https://www.salesforceairesearch.com/opensource/xGen-MM-Vid/index.html

मुख्य बातें:
- 🚀 ** नई मॉडल रिलीज **: Salesforce AI अनुसंधान ने BLIP-3-Video, एक बहु-मोडल भाषा मॉडल, वीडियो प्रसंस्करण पर ध्यान केंद्रित करते हुए पेश किया।
- ⚡ ** कुशल प्रसंस्करण **: कालक्रम एन्कोडर का उपयोग करते हुए, आवश्यक दृश्य संकेतों की संख्या को काफी कम किया गया है, जिससे गणना की दक्षता में उल्लेखनीय वृद्धि हुई है।
- 📈 ** उत्कृष्ट प्रदर्शन **: वीडियो प्रश्न-उत्तर कार्य में उत्कृष्ट प्रदर्शन करते हुए, उच्च सटीकता बनाए रखते हुए संसाधनों की खपत को कम किया गया है।

Meta AI नया वीडियो लर्निंग मॉडल V-JEPA लॉन्च करता है: वीडियो समझ में नया突破

हाल ही में, Meta AI टीम ने वीडियो संयुक्त एम्बेडिंग पूर्वानुमान ढांचे (V-JEPA) मॉडल पेश किया है, यह नवाचार मशीन इंटेलिजेंस के विकास को बढ़ावा देने के उद्देश्य से किया गया है। मनुष्य स्वाभाविक रूप से दृश्य संकेतों से जानकारी को संसाधित कर सकता है, जिससे वह अपने चारों ओर की वस्तुओं और गति पैटर्नों की पहचान कर सकता है। मशीन लर्निंग का एक महत्वपूर्ण लक्ष्य उन मूलभूत सिद्धांतों को उजागर करना है जो मानव को बिना पर्यवेक्षण के सीखने के लिए प्रेरित करते हैं। शोधकर्ताओं ने एक महत्वपूर्ण धारणा प्रस्तुत की - पूर्वानुमान विशेषता सिद्धांत, जो मानता है कि निरंतर संवेदी इनपुट के प्रतिनिधित्वों को एक-दूसरे की पूर्वानुमान क्षमता होनी चाहिए। प्रारंभिक शोध विधियाँ धीमी विशेषता विश्लेषण के माध्यम से हैं।

Salesforce 5 अरब डॉलर की निवेश योजना के साथ सऊदी अरब में आर्टिफिशियल इंटेलिजेंस का विकास करेगा

अमेरिकी क्लाउड सॉफ़्टवेयर कंपनी Salesforce ने हाल ही में घोषणा की कि वह सऊदी अरब में 5 अरब डॉलर का निवेश करेगी, जिसका ध्यान आर्टिफिशियल इंटेलिजेंस (AI) प्रौद्योगिकी के विकास और अनुप्रयोग पर है। यह निर्णय वैश्विक प्रतिस्पर्धा के बढ़ने के संदर्भ में किया गया है, जिसमें विभिन्न देश आर्टिफिशियल इंटेलिजेंस क्षेत्र में निवेश आकर्षित करने के प्रयास कर रहे हैं। इस निवेश के हिस्से के रूप में, Salesforce सऊदी में अपने नवीनतम Hyperforce प्लेटफार्म आर्किटेक्चर को लॉन्च करेगा, जो अमेज़न वेब सर्विसेज (AWS) के साथ रणनीतिक साझेदारी पर आधारित है, जिससे स्थानीय तकनीकी बुनियादी ढाँचे को सुदृढ़ किया जा सके।

चीनी शोध टीम ने VideoChat-Flash को बड़े वीडियो प्रसंस्करण गति में 100 गुना वृद्धि के साथ भारी रूप से जारी किया

परंपरागत वीडियो समझा मॉडल लम्बे वीडियो को प्रोसेस करते समय कई चुनौतियों का सामना करता है, जिसमें लम्बे वीडियो द्वारा लाए गए जटिल संदर्भों को समझना शामिल है। हालाँकि कई शोध वीडियो समझने की क्षमता को बढ़ाने के लिए प्रयासरत हैं, फिर भी यह प्रशिक्षण और निष्पादन की गति में सुधार करने में सक्षम नहीं है। इन समस्याओं के समाधान के लिए, शोध टीम ने HiCo तकनीक का उपयोग करते हुए वीडियो जानकारी में से अतिरिक्त भागों को संकुचित किया, जिसके परिणामस्वरूप कंप्यूटिंग आवश्यकताओं में महत्वपूर्ण कमी आई, जबकि महत्वपूर्ण जानकारी को बनाए रखा। विशेष रूप से, HiCo वीडियो को स्तरित संकुचन के माध्यम से संक्षिप्त करता है, जिससे लम्बे वीडियो को छोटे टुकड़ों में विभाजित किया जा सकता है, और इस प्रकार प्रसंस्करण को कम किया जा सकता है।

Nvidia ने NIM माइक्रोसर्विसेस लॉन्च की, एंटरप्राइज AI एजेंट सुरक्षा नियंत्रण को मजबूत किया

Nvidia ने हाल ही में NIM (Nvidia Infrastructure Microservices) की तीन नई माइक्रोसर्विसेस जारी की, जो NeMo Guardrails ओपन-सोर्स टूलकिट का विस्तार हैं, और एंटरप्राइज AI एजेंट एप्लिकेशन के लिए अधिक सूक्ष्म सुरक्षा नियंत्रण क्षमताएं प्रदान करने के लिए डिज़ाइन की गई हैं। ये तीन नई सेवाएं अपनी विशेषताओं में अद्वितीय हैं: पहली, सामग्री सुरक्षा के लिए, एआई द्वारा हानिकारक या पक्षपाती सामग्री उत्पन्न होने से रोकना; दूसरी, सुनिश्चित करना कि बातचीत अनुमोदित विषयों की सीमा में बनी रहे; तीसरी, एआई एजेंटों को सिस्टम की सीमाओं को पार करने या जेलब्रेक करने से रोकना।

AI समाचार

Salesforce AI अनुसंधान ने प्रस्तुत किया नया मल्टीमॉडल मॉडल BLIP-3-Video: कम लागत में वीडियो समझ

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

Meta AI नया वीडियो लर्निंग मॉडल V-JEPA लॉन्च करता है: वीडियो समझ में नया突破

Salesforce 5 अरब डॉलर की निवेश योजना के साथ सऊदी अरब में आर्टिफिशियल इंटेलिजेंस का विकास करेगा

चीनी शोध टीम ने VideoChat-Flash को बड़े वीडियो प्रसंस्करण गति में 100 गुना वृद्धि के साथ भारी रूप से जारी किया

Nvidia ने NIM माइक्रोसर्विसेस लॉन्च की, एंटरप्राइज AI एजेंट सुरक्षा नियंत्रण को मजबूत किया