AI समाचार

वैश्विक AI नवाचार का कोई भी क्षण न चूकें

AI दैनिक

दैनिक तीन मिनट का AI उद्योग रुझान

AI समयरेखा

AI उद्योग मील के पत्थर

AI मुद्रीकरण गाइड

नवीनतम मामले

AI मुद्रीकरण मामला साझा करना

छवि संग्रह

AI छवि निर्माण मुद्रीकरण मामले

वीडियो संग्रह

AI वीडियो निर्माण मुद्रीकरण मामले

ऑडियो संग्रह

AI ऑडियो निर्माण मुद्रीकरण मामले

सामग्री संग्रह

AI सामग्री लेखन मुद्रीकरण मामले

AI ट्यूटोरियल

नवीनतम ट्यूटोरियल

नवीनतम AI ट्यूटोरियल का मुफ्त साझाकरण

AI उत्पाद रैंकिंग

AI वेबसाइटों की कुल विज़िट रैंकिंग दिखाता है

AI ट्रैफ़िक वृद्धि रैंकिंग

ट्रैफ़िक द्वारा सबसे तेज़ी से बढ़ती AI वेबसाइटों को ट्रैक करें

AI ट्रैफ़िक गिरावट रैंकिंग

महत्वपूर्ण ट्रैफ़िक गिरावट वाली AI वेबसाइटों पर ध्यान दें

AI साप्ताहिक रैंकिंग

AI वेबसाइटों की साप्ताहिक विज़िट रैंकिंग दिखाता है

AI ओपन सोर्स प्रोजेक्ट लाइब्रेरी

अवलोकन

GitHub लोकप्रिय AI ओपन सोर्स प्रोजेक्ट का अवलोकन

उत्पाद लाइब्रेरी टूल नेविगेशन

Zhejiang University Alumni Collaborate with Microsoft to Launch Multimodal Model LLaVA, Challenging GPT-4V

量子位

द्वारा प्रकाशितAI समाचार · 1 मिनट पढ़ें · Oct 12, 2023

浙江大学竺院 के एक पूर्व छात्र ने माइक्रोसॉफ्ट रिसर्च इंस्टीट्यूट के साथ मिलकर मल्टी-मोडल मॉडल LLaVA लॉन्च किया, जो GPT-4V को चुनौती देता है। LLaVA ने 11 परीक्षण डेटा सेटों पर उत्कृष्ट प्रदर्शन किया, और 6k+ स्टार मार्क प्राप्त किए। मॉडल की समग्र क्षमता उच्च है, जो GPT-4V स्तर के 85% से अधिक है। LLaVA का ओपन-सोर्स कोड, मॉडल और प्रशिक्षण डेटा अब उपलब्ध है।

GPT-4V Multimodal Model LLaVA

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

छोटा लेकिन शक्तिशाली! माइक्रोसॉफ्ट ने LLaVA-Rad नामक छोटे मॉडल का शुभारंभ किया, जो सटीक रेडियोलॉजी रिपोर्ट उत्पन्न करता है

हाल ही में, माइक्रोसॉफ्ट रिसर्च ने वाशिंगटन विश्वविद्यालय, स्टैनफोर्ड विश्वविद्यालय, दक्षिणी कैलिफोर्निया विश्वविद्यालय, कैलिफोर्निया विश्वविद्यालय डेविस कैंपस और कैलिफोर्निया विश्वविद्यालय सैन फ्रांसिस्को के शोधकर्ताओं के साथ मिलकर LLaVA-Rad का शुभारंभ किया, जो एक नए प्रकार का छोटा मल्टी-मोडल मॉडल (SMM) है। इसका उद्देश्य नैदानिक रेडियोलॉजी रिपोर्ट बनाने की दक्षता को बढ़ाना है। इस मॉडल का लॉन्च न केवल चिकित्सा छवि प्रसंस्करण तकनीक में एक बड़ी प्रगति का प्रतीक है, बल्कि रेडियोलॉजी के नैदानिक अनुप्रयोगों के लिए और अधिक संभावनाओं को लाता है। बायोमेडिकल क्षेत्र में, बड़े पैमाने पर आधारभूत मॉडल पर आधारित शोध पहले से ही विकसित हो चुका है।

Feb 10, 2025

1.9k

माइक्रोसॉफ्ट ने नया मॉडल OmniParser लॉन्च किया: GPT-4V को स्क्रीनशॉट सामग्री तुरंत समझने में मदद करता है, जहाँ इंगित करें वहाँ समझता है

क्या आपको वह ‘चित्र-से-शब्द’ जादुई GPT-4V याद है? यह चित्र की सामग्री को समझ सकता है और चित्र के आधार पर कार्य कर सकता है, यह सच में आलसी लोगों के लिए वरदान है! लेकिन इसका एक गंभीर कमजोर बिंदु है: इसकी निगाहें ठीक नहीं हैं! कल्पना कीजिए, आप GPT-4V से एक बटन पर क्लिक करने के लिए कहते हैं, लेकिन यह 'स्क्रीन का अंधा' की तरह इधर-उधर क्लिक करता है, क्या यह बहुत परेशान करने वाला है? आज हम आपको एक ऐसा जादुई उपकरण पेश करेंगे जो GPT-4V की नजर मजबूत कर देगा - OmniParser! यह माइक्रोसॉफ्ट द्वारा लॉन्च किया गया एक नया मॉडल है, जो ग्राफिकल यूजर इंटरफेस (GUI) में स्वचालित इंटरएक्शन को हल करने के लिए बनाया गया है।

Oct 25, 2024

8.3k

एआई दैनिक: GPT-4o का नया संस्करण लॉन्च; दीवार की बुद्धिमत्ता का ओपन-सोर्स मोबाइल संस्करण 'GPT-4V'; हुआवेई ने 3D डिजिटल व्यक्ति के लिए नया ढांचा EmoTalk3D पेश किया; अलीबाबा ने ओलंपिक क्षण पोस्टर कार्यप्रवाह लॉन्च किया

【एआई दैनिक】栏目 में आपका स्वागत है! यहाँ आपके लिए हर दिन कृत्रिम बुद्धिमत्ता की दुनिया का अन्वेषण करने का मार्गदर्शक है, हम आपको हर दिन एआई क्षेत्र की गरमागरम सामग्री प्रस्तुत करते हैं, विकासकर्ताओं पर ध्यान केंद्रित करते हैं, आपको तकनीकी प्रवृत्तियों को समझने में मदद करते हैं और नए एआई उत्पादों के अनुप्रयोगों के बारे में जानकारी प्रदान करते हैं। नए एआई उत्पादों के लिए यहां क्लिक करें: https://top.aibase.com/ 1, विकासकर्ता उत्साहित! एआई की क्षमताओं में समस्या है लेकिन इसे हल किया जा सकता है, इसमें पूरा विकास स्टैक में और अधिक काम करने की आवश्यकता है, साथ ही 'दाँतेदार किनारों' का ध्यान रखना और मानव भागीदारी बनाए रखना जरूरी है।

Aug 7, 2024

950

壁面智能 ओपन-सोर्स MiniCPM-V 2.6 एंड-साइड एआई मल्टी-मॉडल क्षमता GPT-4V के समकक्ष

MiniCPM-V2.6 का एंड-साइड मल्टी-मॉडल एआई मॉडल, जिसमें केवल 8B पैरामीटर हैं, ने 20B से कम एकल छवि, बहु छवि, वीडियो समझ में तीन SOTA (State of the Art, यानी वर्तमान सर्वोच्च स्तर) परिणाम हासिल किए हैं, जिससे एंड-साइड एआई की मल्टी-मॉडल क्षमता का महत्वपूर्ण रूप से सुधार हुआ है और यह GPT-4V स्तर से पूरी तरह से समकक्ष है।

Aug 7, 2024

5.2k

बaidu ने PaddleMIX 2.0 संस्करण के लिए मल्टीमोडल बड़े मॉडल विकास किट लॉन्च किया

PaddleMIX2.0 एक मल्टीमोडल बड़े मॉडल विकास किट है, जिसे बaidu द्वारा पेश किया गया है, जिसका उद्देश्य मल्टीमोडल एप्लिकेशन विकास को सरल बनाना है, जो स्वचालित ड्राइविंग, स्मार्ट मेडिकल, सर्च इंजन आदि परिदृश्यों का समर्थन करता है। इसके प्रमुख亮点 में शामिल हैं: 1. **समृद्ध मॉडल लाइब्रेरी**: इमेज, टेक्स्ट, वीडियो, ऑडियो को कवर करता है, नवीनतम LLaVA श्रृंखला मॉडल पेश करता है, जो अत्याधुनिक तकनीकी समर्थन प्रदान करता है। 2. **पूर्ण प्रक्रिया विकास अनुभव**: DataCopilot और Auto मॉड्यूल के साथ आया है, जो मल्टीमोडल मॉडल प्रशिक्षण प्रक्रिया को सरल बनाता है। 3. **उच्च प्रदर्शन प्रशिक्षण क्षमता**

Aug 1, 2024

2.2k

शुश्री·पुयुलिंगबी मल्याक सिद्धांतिक रूपांतरण 2.5 संस्करण लम्बी सन्दर्भ को समर्थन करता है, चित्र वीडियो समझ देने में GPT-4V की ओर संकेत करता है

शुश्री·पुयुलिंगबी (InternLM-XComposer) 2.5 संस्करण शंघाई आर्टिफिशियल इंटेलिजेंस प्रयोगशाला द्वारा विकसित किया गया है, इसका मुख्य उद्देश्य लम्बे सन्दर्भ इनपुट और आउटपुट की क्षमता है, यह 96K लंबाई में सुचारु रूप से काम कर सकता है, 24K इंटरलॉक चित्र-टेक्स्ट डेटा की प्रशिक्षण के माध्यम से। इसके उन्नयन बिंदुओं में शामिल हैं: उच्च-समर्थन चित्र समझ, सूक्ष्म-गुणवत्ता वीडियो समझ, बहु-चक्र बहु-चित्र संवाद।应用上，能够制作网页、撰写高质量图文文章。评估显示，在16个基准测试中超越开源最先进模型，在关键任务中与GPT-4V、Gem

Jul 31, 2024

2.2k

नेटिज़न्स ने GPT-4V को अपने घरेलू कैमरे से जोड़ा, लाखों नेटिज़न्स ने उनकी इस करतूत को देखा!

हाल ही में, GPT-4V को एक विदेशी उपयोगकर्ता, जिसे Home Assistant कहा जाता है, ने नया रूप दिया। उसने साहसिकता से सीधे अपने घरेलू कैमरे में GPT-4Vision को जोड़ा, जिससे एआई 24 घंटे बिना रुकावट उसके प्रशंसा को देखता रहा। नतीजा यह हुआ कि यह वीडियो X पर 1000000 से अधिक बार देखा गया!

Jul 3, 2024

2.5k

LeCun ने नया विज़ुअल मल्टीमॉडल मॉडल Cambrian-1 पेश किया जो GPT-4V को पीछे छोड़ता है

AI की दुनिया में, हमारे पास एक नई और महत्वपूर्ण सदस्य का परिचय हुआ है - Cambrian-1, जो LeCun और谢赛宁 जैसे उद्योग के दिग्गजों द्वारा निर्मित एक मल्टीमॉडल बड़े भाषा मॉडल (MLLM) है। इस मॉडल का उदय न केवल तकनीकी रूप से एक छलांग है, बल्कि यह मल्टीमॉडल सीखने के अनुसंधान पर एक गहरा विचार भी है।

Jun 27, 2024

2.7k

शोधकर्ताओं ने पाया कि GPT-4o को हैक करना आसान है, समग्र सुरक्षा GPT-4V से कम है

北航 और南洋 तकनीकी विश्वविद्यालय के संयुक्त शोध दल ने GPT-4o मॉडल का गहन सुरक्षा परीक्षण किया। हजारों API क्वेरी के माध्यम से, शोधकर्ताओं ने GPT-4o के पाठ, चित्र, ऑडियो तीनों मोडलों का सुरक्षा मूल्यांकन किया। शोध में पाया गया कि, हालांकि GPT-4o के पाठ हैकिंग हमलों की सुरक्षा में सुधार हुआ है, लेकिन नए введ किए गए आवाज मोड ने नए हमले के द्वार को जोड़ा है, और समग्र मल्टीमॉडल सुरक्षा पूर्व पीढ़ी के मॉडल GPT-4V से कम है।

Jun 12, 2024

3.5k

जीरो एक API ओपन - मल्टी-मोडल चाइनीज़ ग्राफ़ अनुभव GPT-4V से परे

जीरो एक API आधिकारिक तौर पर डेवलपर्स के लिए खुला है, जिसमें Yi-34B-Chat-0205 जैसे मॉडल शामिल हैं, जो सामान्य चैट, प्रश्नोत्तर, संवाद, लेखन और अनुवाद का समर्थन करते हैं। Yi-VL-Plus मल्टी-मोडल मॉडल GPT-4V से परे है, जो चाइनीज़ ग्राफ़ अनुभव में उत्कृष्ट प्रदर्शन करता है, और ग्राफ़ पहचान, जानकारी निकासी, प्रश्नोत्तर और अभिक्षमता का समर्थन करता है। Yi-34B-Chat-200K मॉडल खोला गया है, जिसमें 99.8% की उच्च सटीकता है, जो लंबे पाठ की समझ, उपन्यास सामग्री सारांशण और पत्रिकाओं के मुख्य बिंदुओं की निकालने में उपयोगी है। जीरो एक API का खुलासा विकास को प्रोत्साहित करेगा

Mar 22, 2024

560

AI समाचार

AI दैनिक

AI समयरेखा

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT