छिंगहुआ विश्वविद्यालय और टेंसेंट ने ओरीक्स नामक पूर्ण ओपन-सोर्स मल्टी-मोडल आर्किटेक्चर को लॉन्च किया, जो लंबी वीडियो इनपुट का समर्थन करता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Sep 29, 2024

238

आज के तेज़ी से विकसित हो रहे कृत्रिम बुद्धिमत्ता के युग में, ORYX नामक एक बहु-मोडल बड़े भाषा मॉडल हमारे AI द्वारा दृश्य दुनिया की क्षमताओं को समझने के तरीके को चुपचाप बदल रहा है। यह AI प्रणाली, जिसे तियानजिन विश्वविद्यालय, टेंसेंट और नानयांग टेक्नोलॉजिकल यूनिवर्सिटी के शोधकर्ताओं ने संयुक्त रूप से विकसित किया है, दृश्य प्रसंस्करण के क्षेत्र में "ट्रांसफार्मर" के रूप में जानी जाती है।

ORYX, जिसका पूरा नाम Oryx Multi-Modal Large Language Models है, एक AI मॉडल है जिसे चित्र, वीडियो और 3D दृश्यों के समय-स्थान समझने के लिए विशेष रूप से डिज़ाइन किया गया है। इसका मुख्य लाभ यह है कि यह मानव की तरह न केवल दृश्य सामग्री को समझता है, बल्कि सामग्री के बीच संबंध और उसके पीछे की कहानी को भी समझता है।

इस AI प्रणाली की एक बड़ी विशेषता इसकी किसी भी संकल्पनात्मक दृश्य इनपुट को संभालने की क्षमता है। चाहे वह धुंधली पुरानी तस्वीरें हों या उच्च गुणवत्ता वाले वीडियो, ORYX आसानी से इसका सामना कर सकता है। इसका श्रेय इसके पूर्व-प्रशिक्षित मॉडल OryxViT को जाता है, जो विभिन्न संकल्पनाओं की छवियों को AI के लिए समझने योग्य एक समान प्रारूप में परिवर्तित करता है।

ORYX की गतिशील संकुचन क्षमता और भी अद्भुत है। लंबे समय तक वीडियो इनपुट के सामने, यह बुद्धिमानी से जानकारी को संकुचित कर सकता है, महत्वपूर्ण सामग्री को बनाए रखते हुए बिना विकृति के। यह एक मोटी किताब को एक सामग्री से भरपूर नोट कार्ड में संक्षेपित करने के समान है, जिसमें मुख्य जानकारी को बनाए रखते हुए प्रसंस्करण की दक्षता को काफी बढ़ा दिया जाता है।

ORYX का कार्यप्रणाली मुख्य रूप से दो मुख्य घटकों पर निर्भर करती है: दृश्य एन्कोडर OryxViT और गतिशील संकुचन मॉड्यूल। पहला विविध दृश्य इनपुट को संभालने के लिए जिम्मेदार है, जबकि दूसरा सुनिश्चित करता है कि लंबे समय तक वीडियो जैसे बड़े डेटा को प्रभावी ढंग से संसाधित किया जा सके।

व्यावहारिक अनुप्रयोगों में, ORYX ने अद्भुत क्षमता दिखाई है। यह न केवल वीडियो सामग्री को गहराई से समझ सकता है, जिसमें वस्तुएं, कथानक और क्रियाएँ शामिल हैं, बल्कि 3D स्थान में वस्तुओं के स्थान और संबंधों को भी सही ढंग से पकड़ सकता है। इस प्रकार की समग्र दृश्य समझने की क्षमता भविष्य के मानव-मशीन इंटरैक्शन, स्मार्ट निगरानी, और स्वचालित ड्राइविंग जैसे क्षेत्रों में अनंत संभावनाएँ प्रदान करती है।

यह उल्लेखनीय है कि ORYX ने कई दृश्य-भाषा मानक परीक्षणों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से छवियों, वीडियो और बहु-दृश्य 3D डेटा की समय और स्थान समझने के मामले में, यह अग्रणी लाभ दिखाता है।

ORYX की नवाचार केवल इसकी शक्तिशाली प्रसंस्करण क्षमता में नहीं है, बल्कि यह AI दृश्य समझने के लिए एक नया पैराज़ खोलती है। यह मूल संकल्पनाओं में दृश्य इनपुट को संभाल सकता है, जबकि गतिशील संकुचन तकनीक के माध्यम से लंबे वीडियो को प्रभावी ढंग से संसाधित कर सकता है, यह लचीलापन और दक्षता अन्य AI मॉडलों की तुलना में बहुत अधिक है।

तकनीक के निरंतर विकास के साथ, ORYX भविष्य के AI क्षेत्र में एक और भी महत्वपूर्ण भूमिका निभाने की उम्मीद है। यह न केवल मशीनों को हमारे दृश्य संसार को बेहतर ढंग से समझने में मदद करेगा, बल्कि मानव संज्ञानात्मक प्रक्रियाओं के अनुकरण के लिए नए विचार भी प्रदान कर सकता है।

शोध पत्र का पता: https://arxiv.org/pdf/2409.12961

ORYX मल्टी-मोडल बड़े भाषा मॉडल OryxViT विजुअल प्रोसेसिंग

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

अली इंटरनेशनल ओपन-सोर्स ओविस2 सीरीज मल्टी-मोडल बड़े भाषा मॉडल के कुल छह संस्करण

ओविस2 अलीबाबा के अंतरराष्ट्रीयकरण टीम द्वारा प्रस्तुत ओविस सीरीज़ मॉडल का नवीनतम संस्करण है। पूर्व के 1.6 संस्करण की तुलना में, ओविस2 डेटा निर्माण और प्रशिक्षण विधियों में महत्वपूर्ण सुधार करता है। यह न केवल छोटे पैमाने के मॉडल की क्षमता घनत्व को मजबूत करता है, बल्कि निर्देश सूक्ष्मता और प्राथमिकता अध्ययन के माध्यम से सोच श्रृंखला (CoT) तर्क क्षमता में भी काफी वृद्धि प्रदान करता है। इसके अतिरिक्त, ओविस2 वीडियो और बहु-चित्र प्रसंस्करण की क्षमताओं को पेश करता है और बहुभाषी क्षमताओं एवं जटिल परिदृश्यों में OCR क्षमताओं को बढ़ाता है, जो मॉडल की व्यावहारिकता को महत्वपूर्ण रूप से बढ़ाता है।

Feb 21, 2025

2.1k

एकीकृत AI ढांचा Sa2VA: चित्र और वीडियो की गहरी समझ को प्राप्त करना

मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) के प्रोत्साहन के तहत, चित्र और वीडियो से संबंधित कार्यों में क्रांतिकारी प्रगति हुई है, जिसमें दृश्य प्रश्न उत्तर, वर्णन उत्पन्न करना और इंटरएक्टिव संपादन शामिल हैं। हालांकि, बारीकी से वीडियो सामग्री की समझ प्राप्त करना अभी भी महत्वपूर्ण चुनौतियों का सामना करता है। यह चुनौती पिक्सेल स्तर पर विभाजन, भाषा वर्णन के साथ ट्रैकिंग, और विशेष वीडियो संकेतों पर दृश्य प्रश्न उत्तर जैसे कार्यों को शामिल करती है। वर्तमान में सबसे उन्नत वीडियो संवेदन मॉडल विभाजन और ट्रैकिंग कार्यों में उत्कृष्टता प्रदर्शित करते हैं, लेकिन वे खुले भाषा समझ और संवाद क्षमताओं में अभी भी पिछड़ते हैं।

Jan 13, 2025

1.8k

अमेज़न ने नए प्रकार के मल्टी-मोडल भाषा मॉडल “Olympus” का विकास किया है जो AWS सम्मेलन में पेश हो सकता है

हाल ही में रिपोर्ट्स के अनुसार, अमेज़न कंपनी एक नए मल्टी-मोडल बड़े भाषा मॉडल का विकास कर रही है जिसका नाम “Olympus” है, और यह संभावित रूप से अगले सप्ताह AWS re:Invent सम्मेलन में औपचारिक रूप से पेश किया जा सकता है। theinformation की रिपोर्ट के अनुसार, इस एल्गोरिदम का आंतरिक कोड नाम “Olympus” है। पिछले नवंबर में, रॉयटर्स ने रिपोर्ट किया था कि अमेज़न ने “Olympus” नाम के एक बड़े भाषा मॉडल के प्रशिक्षण में करोड़ों डॉलर लगाए हैं, और इस मॉडल के पैरामीटर की संख्या 2 ट्रिलियन तक है।

Nov 29, 2024

2.0k

Meta का ओपन-सोर्स लॉन्ग वीडियो LLM प्रोजेक्ट LongVU: डुप्लिकेट फ़्रेमों को फ़िल्टर करना और लंबे वीडियो की सामग्री को कुशलता से समझना

हाल ही में, Meta AI टीम ने LongVU पेश किया है, जो एक अभिनव स्पष्ट-समय अनुकूली संकुचन तंत्र है, जिसका उद्देश्य लंबे वीडियो की भाषा समझने की क्षमताओं को बढ़ाना है। पारंपरिक मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) लंबे वीडियो को प्रोसेस करते समय संदर्भ की लंबाई के प्रतिबंधों का सामना करते हैं, और LongVU विशेष रूप से इस समस्या को सुलझाने के लिए विकसित किया गया है। LongVU की कार्यपद्धति मुख्यतः डुप्लिकेट फ़्रेमों को फ़िल्टर करना, क्रॉस-फ़्रेम टोकन संकुचन आदि द्वारा संदर्भ की लंबाई का कुशलतापूर्वक उपयोग करने पर निर्भर करती है, जो वीडियो के दृश्य विवरणों को बनाए रखते हुए वीडियो के आकार को कम करने में सक्षम है।

Oct 28, 2024

4.2k

एप्पल UI-JEPA मॉडल का उपयोग करके उपकरणों पर उपयोगकर्ता इरादों को समझने का लक्ष्य रखता है

आर्टिफिशियल इंटेलिजेंस टेक्नोलॉजी के निरंतर विकास के साथ, उपयोगकर्ता इंटरफेस (UI) की समझ एक अंतर्दृष्टिपूर्ण और उपयोगी AI एप्लिकेशनों के निर्माण की एक महत्वपूर्ण चुनौती बन गई है। हाल ही में, एप्पल के शोधकर्ताओं ने एक नए पेपर में UI-JEPA प्रस्तुत किया है, जो एक ऐसा आर्किटेक्चर है जिसे हल्के डिवाइस-अंतर्गामी UI समझ को साकार करने के लिए डिज़ाइन किया गया है, जो न केवल उच्च प्रदर्शन को बनाए रखता है बल्कि UI समझ की गणनात्मक आवश्यकताओं को भी महत्वपूर्ण रूप से कम करता है। UI समझ की चुनौती क्रॉस-मोडल विशेषताओं को संभालने की आवश्यकता में है, जिसमें चित्र और प्राकृतिक भाषा शामिल हैं, ताकि UI अनुक्रम में समय संबंधों को कैप्चर किया जा सके। हालांकि मल्टी-मोडल बड़े भाषा मॉडल

Sep 14, 2024

2.3k

NVIDIA ने नया दृश्य वॉयस मॉडल NVEagle पेश किया, जो चित्र देखकर आपको चैट करने में सक्षम है

NVIDIA ने कई विश्वविद्यालयों के साथ मिलकर NVEagle लॉन्च किया, जो एक बड़ा दृश्य भाषा मॉडल है जो चित्रों को देख सकता है और चैट कर सकता है। NVEagle चित्र की सामग्री का विश्लेषण कर सकता है और सटीक उत्तर प्रदान कर सकता है, जैसे कि चित्र में व्यक्तियों की पहचान करना, जैसे कि वह हुáng rén xùn है। यह मॉडल छवियों को दृश्य अंक में परिवर्तित करके और उन्हें टेक्स्ट एम्बेडिंग के साथ मिलाकर दृश्य जानकारी की समझ को महत्वपूर्ण रूप से बढ़ा देता है। उच्च रिज़ॉल्यूशन छवि प्रोसेसिंग की चुनौतियों का सामना करते हुए, शोध टीम ने विभिन्न दृश्य एन्कोडरों और समामेलन रणनीतियों की खोज की और Eagle-X5-7B, Eagle-X का निर्माण किया।

Sep 2, 2024

2.7k

AnyGPT: किसी भी मोडल इनपुट से किसी भी मोडल आउटपुट को लागू करना

फुडान विश्वविद्यालय और शंघाई आर्टिफिशियल इंटेलिजेंस प्रयोगशाला ने मिलकर AnyGPT पेश किया है, जो विभिन्न मोडल इनपुट को संभाल सकता है और किसी भी मोडल आउटपुट उत्पन्न कर सकता है। AnyGPT विभाजित प्रतिनिधित्व तकनीक का उपयोग करता है, जो स्थिर प्रशिक्षण, नए मोडल का एकीकरण प्रदर्शित करता है और लचीलापन और व्यावहारिकता को दर्शाता है। यह मल्टी-मोडल टेक्स्ट सेंटर डेटा सेट का निर्माण करता है, बड़े पैमाने पर मल्टी-मोडल निर्देश डेटा सेट का सिंथेसिस करता है और मॉडल की मल्टी-मोडल क्षमता को बढ़ाता है। मॉडल आर्किटेक्चर को बदलने की आवश्यकता नहीं है, विभाजित मार्कर के माध्यम से उच्च प्रभावी मल्टी-मोडल समझ और उत्पन्न करने के लिए, जो नवप्रवर्तनशीलता और व्यावहारिकता को दर्शाता है।

Feb 20, 2024

1.9k

एप्पल के ओपन-सोर्स मल्टी-मोडल बड़े भाषा मॉडल द्वारा संचालित संपादन तकनीक MGIE

एप्पल की नई तकनीक MGIE, प्राकृतिक भाषा निर्देश के माध्यम से चित्रों में संशोधन करती है, संपादन प्रक्रिया को सरल बनाती है। यह मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) का उपयोग करके छवि संपादन निर्देश उत्पन्न करती है। ICLR'24 में इसे स्पॉटलाइट परिणाम प्राप्त हुआ, परियोजना का पता: https://top.aibase.com/tool/mgie। MGIE तकनीक निर्देश के माध्यम से चित्रों में संशोधन की अनुमति देती है, जैसे रंग बदलना, आकार समायोजित करना आदि, जो संपादन प्रक्रिया को बहुत सरल बनाता है। बड़े भाषा मॉडल और छवि संपादन को एकीकृत करके, अधिक बुद्धिमान तरीके से निष्पादन किया जा सकता है।

Feb 5, 2024

400

बाइटडांस और Zhejiang विश्वविद्यालय ने संयुक्त रूप से मल्टी-मोडल बड़े भाषा मॉडल Vista-LLaMA लॉन्च किया, जो वीडियो सामग्री की गहरी समझ हासिल करता है

बाइटडांस और Zhejiang विश्वविद्यालय ने Vista-LLaMA लॉन्च किया, जो विशेष रूप से वीडियो सामग्री के लिए डिजाइन किया गया है, और लंबे वीडियो में 'भ्रम' की समस्या को हल करता है। अद्वितीय दृश्य और भाषा टोकन के प्रसंस्करण के माध्यम से, इस मॉडल ने दृश्य और भाषा टोकन के बीच समान दूरी को बनाए रखा है, जो पाठ उत्पादन में偏差 से बचाता है। सुधरा हुआ ध्यान तंत्र और अनुक्रमिक दृश्य प्रक्षिप्तक ने मॉडल की वीडियो सामग्री की गहरी समझ और समय अनुक्रमिक तार्किक समझ को बढ़ाया है। Vista-LLaMA ने कई ओपन-एंडेड वीडियो प्रश्नोत्तर मानक परीक्षणों में उत्कृष्टता के साथ प्रदर्शन किया है।

Jan 8, 2024

1.1k

हेकोंगशेन ने मल्टी-मोडल बड़े मॉडल 'जिउतियन' का विमोचन किया, प्रदर्शन में 5% सुधार

हेकोंगशेन ने 'जिउतियन' नामक मल्टी-मोडल बड़े भाषा मॉडल का विमोचन किया, जिसने 13 दृश्य भाषा कार्यों में सत्यापन योग्य प्रदर्शन प्राप्त किया। जिउतियन ने दृश्य-स्पष्ट तर्क कार्य में 5% सुधार किया, जो सूक्ष्म स्थानिक पहचान और उच्च स्तरीय अर्थपूर्ण दृश्य ज्ञान को संयोजित करके संभव हुआ। नए विधियों के रूप में ढांचा दृश्य जानकारी निकालने की कमी के मुद्दे को हल करता है, जिसमें खंडित आदेशों के सूक्ष्म समायोजन की रणनीति और मिश्रित अनुकूलक शामिल हैं। जिउतियन मॉडल सूक्ष्म स्थानिक पहचान और उच्च स्तरीय अर्थपूर्ण दृश्य ज्ञान को शामिल करता है, जो दृश्य स्थिति偏差 और भ्रांतियों के मुद्दों को हल करता है।

Dec 4, 2023

760

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन