वीकोडर

वीकोडर एक दृश्य बोध मॉडल है जो ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है।

सामान्य उत्पादछविकंप्यूटर विजनप्राकृतिक भाषा प्रसंस्करण
वीकोडर एक एडेप्टर है जो सहायक संवेदी मोड को नियंत्रण इनपुट के रूप में उपयोग करके ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है। वीकोडर LLaVA, LLaVA-1.5 पर आधारित है। वीकोडर LLaVA-1.5 के मापदंडों को ठीक नहीं करता है, इसलिए सामान्य प्रश्नोत्तर बेंचमार्क में इसका प्रदर्शन LLaVA-1.5 के समान ही है। वीकोडर का COST डेटासेट पर बेंचमार्क किया गया है, और यह अर्थपूर्ण, उदाहरण और पैनोरमिक विभाजन कार्यों पर अच्छा प्रदर्शन करता है। लेखकों ने मॉडल के पता लगाने के परिणाम और पूर्व-प्रशिक्षित मॉडल भी जारी किए हैं।
वेबसाइट खोलें

वीकोडर नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

474564576

बाउंस दर

36.20%

प्रति विज़िट औसत पृष्ठ

6.1

औसत विज़िट अवधि

00:06:34

वीकोडर विज़िट प्रवृत्ति

वीकोडर विज़िट भौगोलिक वितरण

वीकोडर ट्रैफ़िक स्रोत

वीकोडर विकल्प