零一万物 Yi-VL मल्टी-मोडल भाषा मॉडल零一万物 Yi श्रृंखला मॉडल परिवार का एक नया सदस्य है, जो चित्र और पाठ को समझने और संवाद उत्पन्न करने में उत्कृष्ट क्षमताएँ रखता है। Yi-VL मॉडल ने अंग्रेजी डेटा सेट MMMU और चीनी डेटा सेट CMMMU पर प्रमुख उपलब्धियाँ हासिल की हैं, जो जटिल अंतःविषय कार्यों में अपनी ताकत को प्रदर्शित करता है। Yi-VL-34B ने नए मल्टी-मोडल बेंचमार्क परीक्षण MMMU में 41.6% की सटीकता के साथ अन्य मल्टी-मोडल बड़े मॉडलों को पीछे छोड़ दिया, जो अंतःविषय ज्ञान को समझने और लागू करने की मजबूत क्षमता को दर्शाता है। Yi-VL मॉडल ओपन-सोर्स LLaVA आर्किटेक्चर पर आधारित है, जिसमें विज़न ट्रांसफार्मर (ViT), प्रोजेक्शन मॉड्यूल और बड़े पैमाने पर भाषा मॉडल Yi-34B-Chat और Yi-6B-Chat शामिल हैं। ViT का उपयोग चित्र को कोडित करने के लिए किया जाता है, प्रोजेक्शन मॉड्यूल चित्र विशेषताओं और पाठ विशेषताओं के स्थान संरेखण की क्षमता को लागू करता है, और बड़े पैमाने पर भाषा मॉडल शक्तिशाली भाषा समझ और उत्पन्न करने की क्षमता प्रदान करता है।
जी-वीएल मल्टी-मोडल भाषा मॉडल लॉन्च किया गया दो संस्करणों के साथ
