वीकोडर
वीकोडर एक दृश्य बोध मॉडल है जो ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है।
सामान्य उत्पादछविकंप्यूटर विजनप्राकृतिक भाषा प्रसंस्करण
वीकोडर एक एडेप्टर है जो सहायक संवेदी मोड को नियंत्रण इनपुट के रूप में उपयोग करके ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है। वीकोडर LLaVA, LLaVA-1.5 पर आधारित है। वीकोडर LLaVA-1.5 के मापदंडों को ठीक नहीं करता है, इसलिए सामान्य प्रश्नोत्तर बेंचमार्क में इसका प्रदर्शन LLaVA-1.5 के समान ही है। वीकोडर का COST डेटासेट पर बेंचमार्क किया गया है, और यह अर्थपूर्ण, उदाहरण और पैनोरमिक विभाजन कार्यों पर अच्छा प्रदर्शन करता है। लेखकों ने मॉडल के पता लगाने के परिणाम और पूर्व-प्रशिक्षित मॉडल भी जारी किए हैं।
वीकोडर नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34