अली क्लाउड टोंग यी कियान वें फिर से ओपनस्रोत: मल्टी-मॉडल बड़ा मॉडल क्यूवेन-वीएल

亿邦动力

द्वारा प्रकाशितAI समाचार · 2 मिनट पढ़ें · Aug 25, 2023

25 अगस्त को, अली क्लाउड ने बड़े पैमाने पर विज़ुअल लैंग्वेज मॉडल Qwen-VL लॉन्च किया, जो चीनी और अंग्रेजी सहित कई भाषाओं का समर्थन करता है और टेक्स्ट और इमेज की संयुक्त समझ क्षमता रखता है। Qwen-VL अली क्लाउड के पहले के ओपन-सोर्स जनरल लैंग्वेज मॉडल Qwen-7B पर आधारित है। अन्य विज़ुअल लैंग्वेज मॉडलों की तुलना में, Qwen-VL ने विज़ुअल लोकेशन, इमेज में टेक्स्ट की समझ जैसी नई क्षमताएँ जोड़ी हैं। Qwen-VL ने GitHub पर 3400 से अधिक स्टार प्राप्त किए हैं, और डाउनलोड संख्या 400,000 से अधिक है। विज़ुअल लैंग्वेज मॉडल को सामान्य AI के महत्वपूर्ण विकास दिशा के रूप में देखा जाता है। उद्योग का मानना है कि मल्टी-मोडल इनपुट का समर्थन करने वाले मॉडल दुनिया की समझने की क्षमता को बढ़ा सकते हैं और उपयोग के दृश्य को विस्तारित कर सकते हैं। अली क्लाउड Qwen-VL के ओपन-सोर्स के माध्यम से सामान्य AI प्रौद्योगिकी की प्रगति को आगे बढ़ा रहा है।

अली क्लाउड सामान्य एआई दृश्य भाषा मॉडल

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

किमी ओपन-सोर्स दृश्य भाषा मॉडल किमी-वीएल और किमी-वीएल-थिंकिंग कई मानदंडों में GPT-4o से आगे निकलते हैं

Apr 14, 2025

मैनस के संस्थापक शाओ होंग: 90 के दशक के AI स्टार, अपने पूर्ववर्ती लिआंग वेनफेंग से कम उम्र के

Mar 6, 2025

मैनस बीटा लॉन्च: मोनिका टीम द्वारा लॉन्च किया गया यूनिवर्सल एआई एजेंट चर्चा में है

Mar 6, 2025

अली क्लाउड मोड में लॉन्चिना कक्षास्कीन का नवीनतम ओपन-सोर्स मल्टी-मॉडल मॉडल

वैश्विक डेवलपर्स का ध्यान फिर से चीन की ओर आकर्षित हुआ! अत्यधिक प्रतीक्षित वैश्विक डेवलपर सम्मेलन (जीडीसी) में, अली क्लाउड मोड समुदाय ने महत्वपूर्ण घोषणा की, कक्षास्कीन का नवीनतम ओपन-सोर्स मल्टी-मॉडल मॉडल पेश किया, जिसमें वैश्विक स्तर पर सबसे बड़े ओपन-सोर्स वीडियो जनरेशन मॉडल स्टेप-वीडियो-टी2वी, और उद्योग का पहला प्रोडक्ट-लेवल ओपन-सोर्स वॉयस इंटरएक्शन मॉडल स्टेप-ऑडियो शामिल है। यह समाचार तुरंत वैश्विक एआई ओपन-सोर्स समुदाय की हलचल पैदा कर दिया, जिससे यह फिर से चीन की कृत्रिम बुद्धिमत्ता क्षेत्र में मजबूत नवाचार क्षमता को उजागर करता है। चीन का सबसे बड़ा एआई

Feb 21, 2025

1.5k

गूगल DeepMind ने 100 बिलियन दृश्य भाषा डेटा सेट WebLI-100B लॉन्च किया

गूगल DeepMind टीम ने आधिकारिक रूप से WebLI-100B डेटा सेट लॉन्च किया है, जो 1000 अरब चित्र - पाठ युग्मों का एक विशाल डेटा सेट है, जिसका उद्देश्य कृत्रिम बुद्धिमत्ता दृश्य भाषा मॉडल की सांस्कृतिक विविधता और बहुभाषिकता को बढ़ाना है। इस डेटा सेट के माध्यम से, शोधकर्ता विभिन्न संस्कृतियों और भाषा पर्यावरण में दृश्य भाषा मॉडल के प्रदर्शन में सुधार करने की आशा करते हैं, साथ ही विभिन्न उपसमूहों के बीच प्रदर्शन के अंतर को कम करने का प्रयास करते हैं, ताकि कृत्रिम बुद्धिमत्ता की समावेशिता बढ़ाई जा सके। दृश्य भाषा मॉडल (VLMs) को यह सीखने के लिए बड़े पैमाने पर डेटा सेट पर निर्भर रहना पड़ता है कि कैसे जोड़ना है।

Feb 14, 2025

2.8k

कई प्लेटफार्मों ने DeepSeek बड़े मॉडल को लॉन्च किया, आर्टिफिशियल इंटेलिजेंस तकनीक में नवाचार को आगे बढ़ाते हुए

हाल ही में, कई चीनी क्लाउड सेवा प्लेटफॉर्म ने DeepSeek बड़े मॉडल को लॉन्च किया, जो इस नई तकनीक के देश में व्यापक उपयोग का प्रतीक है। इस लॉन्च में बाइटडांस क्लाउड, हुआवेई क्लाउड, अली क्लाउड, टेन्सेंट क्लाउड, 360 डिजिटल सुरक्षा और युंझौ टेक्नोलॉजी जैसी कंपनियां शामिल हैं। उपयोगकर्ता विभिन्न प्लेटफार्मों पर DeepSeek-R1, DeepSeek-V3 जैसे उन्नत मॉडलों का अनुभव कर सकते हैं। लॉन्च इवेंट के दिन, बाइटडांस क्लाउड ने घोषणा की कि इसका 千帆 प्लेटफॉर्म आधिकारिक तौर पर DeepSeek-R1 और DeepS को लिस्ट कर दिया है।

Feb 5, 2025

3.9k

अली क्लाउड द्वारा ओपन-सोर्स Qwen2.5-VL, दृश्य AI ने Claude 3.5 को पीछे छोड़ दिया

अली क्लाउड ने एक नया दृश्य मॉडल Qwen2.5-VL ओपन-सोर्स किया है, और 3B, 7B और 72B के तीन आकार संस्करण लॉन्च किए हैं। इसमें, फ्लैगशिप संस्करण Qwen2.5-VL-72B ने 13 प्रमुख परीक्षणों में दृश्य समझ का खिताब जीता, जिसने GPT-4o और Claude3.5 को पीछे छोड़ दिया। अली क्लाउड के आधिकारिक विवरण के अनुसार, नया Qwen2.5-VL छवि सामग्री को अधिक सटीकता से解析 कर सकता है, और 1 घंटे से अधिक की वीडियो समझ का समर्थन कर सकता है। यह मॉडल वीडियो में विशिष्ट घटनाओं को खोज सकता है, और वीडियो की अनियमितताओं को समझ सकता है।

Jan 29, 2025

4.1k

अली क्लाउड Qwen2.5-1M ओपन-सोर्स रिलीज़: 10 लाख संदर्भ लंबाई मॉडल का आगमन

DeepSeek R1 के बाद, अली क्लाउड की टोङ्ति कियानवेन टीम ने अभी हाल ही में अपने नवीनतम ओपन-सोर्स मॉडल Qwen2.5-1M की घोषणा की, जिसने फिर से उद्योग में ध्यान आकर्षित किया। इस रिलीज़ में Qwen2.5-1M श्रृंखला में दो ओपन-सोर्स मॉडल शामिल हैं: Qwen2.5-7B-Instruct-1M और Qwen2.5-14B-Instruct-1M। यह टोङ्ति कियानवेन द्वारा पहले बार लाया गया मॉडल है जो मूल रूप से एक मिलियन टोकन संदर्भ लंबाई का समर्थन करता है, और निष्पादन गति में महत्वपूर्ण सुधार किया गया है।

Jan 27, 2025

7.4k

VLA तकनीक द्वारा बुद्धिमान ड्राइविंग प्रतियोगिता में नेतृत्व, NVIDIA ने तेजी से बाजार हिस्सेदारी पर कब्जा करने में सहयोग किया

बुद्धिमान ड्राइविंग उद्योग में, 2025 को 'VLA का वर्ष' माना जाता है, जो एक नई तकनीकी पैटर्न के उदय का प्रतीक है। VLA, अर्थात् दृश्य-भाषा-क्रिया मॉडल (Vision-Language-Action Model), को 2023 में DeepMind द्वारा पेश किया गया था, जिसका उद्देश्य पर्यावरण को समझने और प्रतिक्रिया करने की रोबोट की क्षमता को बढ़ाना है। हाल के वर्षों में, इस तकनीक ने स्वचालित ड्राइविंग क्षेत्र में बहुत ध्यान आकर्षित किया है। पारंपरिक दृश्य भाषा मॉडल (VLM) की तुलना में, VLA का

Jan 25, 2025

2.3k

MIT और DeepMind अनुसंधान ने यह खुलासा किया है कि दृश्य भाषा मॉडल नकारात्मक अभिव्यक्तियों को क्यों नहीं समझ पाते हैं

बहु-मॉडल कार्यों में, दृश्य भाषा मॉडल (VLMs) छवि पुनः प्राप्ति, छवि व्याख्या और चिकित्सा निदान जैसे कार्यों में महत्वपूर्ण भूमिका निभाते हैं। इन मॉडलों का लक्ष्य दृश्य डेटा को भाषा डेटा के साथ समन्वयित करना है ताकि सूचना प्रक्रिया को अधिक प्रभावी बनाया जा सके। हालांकि, वर्तमान VLMs नकारात्मकता को समझने में गंभीर चुनौतियों का सामना कर रहे हैं। नकारात्मकता कई अनुप्रयोगों में महत्वपूर्ण है, जैसे 'बिना खिड़कियों वाले कमरे' और 'खिड़कियों वाले कमरे' के बीच अंतर करना। यद्यपि VLMs ने महत्वपूर्ण प्रगति की है, लेकिन नकारात्मक कथनों को संसाधित करने में मौजूदा मॉडलों की सीमाएँ हैं।

Jan 20, 2025

1.1k

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन