कुनlun वानवे: मल्टीमॉडल बड़े मॉडल अब प्रयोगात्मक प्रशिक्षण चरण में हैं

हाल ही में, श्यामेन विश्वविद्यालय के सूचना学院 के प्रोफेसर शि სियाओदोंग की टीम के "हड्डी की लेखन मल्टीमॉडल बड़े मॉडल पर आधारित बहुविध जानकारी सहायक विश्लेषण मॉडल" को "अन्वेषण योजना 2024" के नवाचार अन्वेषण प्रोजेक्ट TOP10 सूची में शामिल किया गया है, जिसने हड्डी की लेखन के आधुनिक विश्लेषण के लिए एक नया मार्ग खोला है। हड्डी की लेखन, दुनिया के चार प्राचीन लेखन में से एक, तीन हजार से अधिक वर्ष पुराना है और आधुनिक चीनी लेखन का स्रोत है। हालाँकि, पारंपरिक हड्डी की लेखन का विश्लेषण विशेषज्ञों की मानव व्याख्या पर निर्भर करता है, जो कि एक जटिल और समय लेने वाला कार्य है। अक्षर रूपों के विश्लेषण और शब्दों के उदाहरणों के अध्ययन जैसी विधियों का उपयोग करने के बावजूद, विश्लेषण की प्रक्रिया अब भी कई बाधाओं का सामना करती है।
कृत्रिम बुद्धिमत्ता के क्षेत्र में, चीन स्वायत्त नवाचार के साथsteadily आगे बढ़ रहा है। 26 नवंबर को, वैश्विक स्तर पर पहले अरब-पैरामीटर मल्टीमॉडल बड़े मॉडल ज़ीदोंग ताइचू 3.0 वुहान में औपचारिक रूप से खुलासा किया गया, जिससे घरेलू एआई प्रौद्योगिकी में एक महत्वपूर्ण योगदान हुआ। यह केवल एक तकनीकी उन्नयन नहीं है, बल्कि चीन के एआई पारिस्थितिकी तंत्र के लिए एक महत्वपूर्ण मील का पत्थर है। इसे चीनी अकादमी ऑफ साइंसेज के ऑटोमेशन रिसर्च इंस्टीट्यूट, हुआवेई कंपनी और वुहान डोंगहू उच्च तकनीक क्षेत्र के तीन भागीदारों द्वारा संयुक्त रूप से विकसित किया गया है, और इसने सफलतापूर्वक दुनिया का पहला प्री-ट्रेन किए गए मॉडल का निर्माण किया है जो चित्र, टेक्स्ट और ध्वनि के तीन मोड को कवर करता है। चित्र स्रोत नोट: तस्वीर
डोंगई टेक्नोलॉजी, जो जून 2024 में स्थापित हुई थी, एक ह्यूमनॉइड रोबोटिक्स कंपनी है, जिसने पिंगरुई कैपिटल और Z फंड के नेतृत्व में कई प्रसिद्ध निवेश संस्थानों के साथ मिलकर हजारों लाखों की एंजेल राउंड फंडिंग प्राप्त की है। कंपनी की संस्थापक, रेन शियाओयु, के पास पैरों वाले ह्यूमनॉइड रोबोट और रिस्क रिवॉर्ड डेवलपमेंट का व्यापक अनुभव है। वर्तमान में, ह्यूमनॉइड रोबोट एकल कार्य निष्पादन में उत्कृष्ट हैं, लेकिन विविध और सामान्य क्रियाओं को पूरा करने में चुनौतियां हैं, जो मल्टीमॉडल बड़े मॉडल के साथ उनके मिश्रण की संभावना को सीमित करती हैं। डोंगई टेक्नोलॉजी नई प्रकार के कार्यात्मक AI एजेंट और नई पीढ़ी के ह्यूमनॉइड रोबोट के विकास के लिए प्रतिबद्ध है।
अली टीम द्वारा हाल ही में जारी किया गया mPLUG-Owl3 एक सामान्य मल्टीमॉडल बड़ा मॉडल है, जिसकी मुख्य क्षमता लंबी छवि अनुक्रमों की समझ है। सुपर ध्यान मॉड्यूल को शामिल करके, mPLUG-Owl3 दृश्य और भाषा जानकारी को कुशलतापूर्वक प्रसंस्करण कर सकता है, जो चित्र, वीडियो और अन्य मल्टीमॉडल डेटा की गहरी समझ और संचार को संभव बनाता है। इस मॉडल ने निष्कर्षण दक्षता, छवि प्रसंस्करण क्षमता, और मल्टीमॉडल ज्ञान अनुप्रयोगों में महत्वपूर्ण प्रगति की है, विशेष रूप से वीडियो समझ के क्षेत्र में, यह 4 सेकंड में 2 घंटे की फिल्म को 'देख' सकता है और उससे संबंधित प्रश्नों का सटीक उत्तर दे सकता है।