Zhejiang University Alumni Collaborate with Microsoft to Launch Multimodal Model LLaVA, Challenging GPT-4V

量子位

द्वारा प्रकाशितAI समाचार · 1 मिनट पढ़ें · Oct 12, 2023

浙江大学竺院 के एक पूर्व छात्र ने माइक्रोसॉफ्ट रिसर्च इंस्टीट्यूट के साथ मिलकर मल्टी-मोडल मॉडल LLaVA लॉन्च किया, जो GPT-4V को चुनौती देता है। LLaVA ने 11 परीक्षण डेटा सेटों पर उत्कृष्ट प्रदर्शन किया, और 6k+ स्टार मार्क प्राप्त किए। मॉडल की समग्र क्षमता उच्च है, जो GPT-4V स्तर के 85% से अधिक है। LLaVA का ओपन-सोर्स कोड, मॉडल और प्रशिक्षण डेटा अब उपलब्ध है।

छोटा लेकिन शक्तिशाली! माइक्रोसॉफ्ट ने LLaVA-Rad नामक छोटे मॉडल का शुभारंभ किया, जो सटीक रेडियोलॉजी रिपोर्ट उत्पन्न करता है

हाल ही में, माइक्रोसॉफ्ट रिसर्च ने वाशिंगटन विश्वविद्यालय, स्टैनफोर्ड विश्वविद्यालय, दक्षिणी कैलिफोर्निया विश्वविद्यालय, कैलिफोर्निया विश्वविद्यालय डेविस कैंपस और कैलिफोर्निया विश्वविद्यालय सैन फ्रांसिस्को के शोधकर्ताओं के साथ मिलकर LLaVA-Rad का शुभारंभ किया, जो एक नए प्रकार का छोटा मल्टी-मोडल मॉडल (SMM) है। इसका उद्देश्य नैदानिक रेडियोलॉजी रिपोर्ट बनाने की दक्षता को बढ़ाना है। इस मॉडल का लॉन्च न केवल चिकित्सा छवि प्रसंस्करण तकनीक में एक बड़ी प्रगति का प्रतीक है, बल्कि रेडियोलॉजी के नैदानिक अनुप्रयोगों के लिए और अधिक संभावनाओं को लाता है। बायोमेडिकल क्षेत्र में, बड़े पैमाने पर आधारभूत मॉडल पर आधारित शोध पहले से ही विकसित हो चुका है।

माइक्रोसॉफ्ट ने नया मॉडल OmniParser लॉन्च किया: GPT-4V को स्क्रीनशॉट सामग्री तुरंत समझने में मदद करता है, जहाँ इंगित करें वहाँ समझता है

क्या आपको वह ‘चित्र-से-शब्द’ जादुई GPT-4V याद है? यह चित्र की सामग्री को समझ सकता है और चित्र के आधार पर कार्य कर सकता है, यह सच में आलसी लोगों के लिए वरदान है! लेकिन इसका एक गंभीर कमजोर बिंदु है: इसकी निगाहें ठीक नहीं हैं! कल्पना कीजिए, आप GPT-4V से एक बटन पर क्लिक करने के लिए कहते हैं, लेकिन यह 'स्क्रीन का अंधा' की तरह इधर-उधर क्लिक करता है, क्या यह बहुत परेशान करने वाला है? आज हम आपको एक ऐसा जादुई उपकरण पेश करेंगे जो GPT-4V की नजर मजबूत कर देगा - OmniParser! यह माइक्रोसॉफ्ट द्वारा लॉन्च किया गया एक नया मॉडल है, जो ग्राफिकल यूजर इंटरफेस (GUI) में स्वचालित इंटरएक्शन को हल करने के लिए बनाया गया है।

壁面智能 ओपन-सोर्स MiniCPM-V 2.6 एंड-साइड एआई मल्टी-मॉडल क्षमता GPT-4V के समकक्ष

MiniCPM-V2.6 का एंड-साइड मल्टी-मॉडल एआई मॉडल, जिसमें केवल 8B पैरामीटर हैं, ने 20B से कम एकल छवि, बहु छवि, वीडियो समझ में तीन SOTA (State of the Art, यानी वर्तमान सर्वोच्च स्तर) परिणाम हासिल किए हैं, जिससे एंड-साइड एआई की मल्टी-मॉडल क्षमता का महत्वपूर्ण रूप से सुधार हुआ है और यह GPT-4V स्तर से पूरी तरह से समकक्ष है।

बaidu ने PaddleMIX 2.0 संस्करण के लिए मल्टीमोडल बड़े मॉडल विकास किट लॉन्च किया

PaddleMIX2.0 एक मल्टीमोडल बड़े मॉडल विकास किट है, जिसे बaidu द्वारा पेश किया गया है, जिसका उद्देश्य मल्टीमोडल एप्लिकेशन विकास को सरल बनाना है, जो स्वचालित ड्राइविंग, स्मार्ट मेडिकल, सर्च इंजन आदि परिदृश्यों का समर्थन करता है। इसके प्रमुख亮点 में शामिल हैं: 1. **समृद्ध मॉडल लाइब्रेरी**: इमेज, टेक्स्ट, वीडियो, ऑडियो को कवर करता है, नवीनतम LLaVA श्रृंखला मॉडल पेश करता है, जो अत्याधुनिक तकनीकी समर्थन प्रदान करता है। 2. **पूर्ण प्रक्रिया विकास अनुभव**: DataCopilot और Auto मॉड्यूल के साथ आया है, जो मल्टीमोडल मॉडल प्रशिक्षण प्रक्रिया को सरल बनाता है। 3. **उच्च प्रदर्शन प्रशिक्षण क्षमता**

AI समाचार

Zhejiang University Alumni Collaborate with Microsoft to Launch Multimodal Model LLaVA, Challenging GPT-4V

量子位

संबंधित AI समाचार अनुशंसाएँ

壁面智能 ओपन-सोर्स MiniCPM-V 2.6 एंड-साइड एआई मल्टी-मॉडल क्षमता GPT-4V के समकक्ष

बaidu ने PaddleMIX 2.0 संस्करण के लिए मल्टीमोडल बड़े मॉडल विकास किट लॉन्च किया