वीकोडर

वीकोडर एक दृश्य बोध मॉडल है जो ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है।

सामान्य उत्पादछविकंप्यूटर विजनप्राकृतिक भाषा प्रसंस्करण

वीकोडर एक एडेप्टर है जो सहायक संवेदी मोड को नियंत्रण इनपुट के रूप में उपयोग करके ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है। वीकोडर LLaVA, LLaVA-1.5 पर आधारित है। वीकोडर LLaVA-1.5 के मापदंडों को ठीक नहीं करता है, इसलिए सामान्य प्रश्नोत्तर बेंचमार्क में इसका प्रदर्शन LLaVA-1.5 के समान ही है। वीकोडर का COST डेटासेट पर बेंचमार्क किया गया है, और यह अर्थपूर्ण, उदाहरण और पैनोरमिक विभाजन कार्यों पर अच्छा प्रदर्शन करता है। लेखकों ने मॉडल के पता लगाने के परिणाम और पूर्व-प्रशिक्षित मॉडल भी जारी किए हैं।

Best AI Websites & Tools

वीकोडर

वीकोडर नवीनतम ट्रैफ़िक स्थिति

वीकोडर विज़िट प्रवृत्ति

वीकोडर विज़िट भौगोलिक वितरण

वीकोडर ट्रैफ़िक स्रोत

वीकोडर विकल्प

ViDoRAG — ViDoRAG एक दृश्य दस्तावेज़ पुनर्प्राप्ति संवर्धित पीढ़ी गतिशील पुनरावृति तर्क एजेंट ढांचा है।

Janus-Pro-1B — Janus-Pro-1B एक एकीकृत बहु-मोडल समझ और पीढ़ी वाला स्व-पुनरावर्ती ढाँचा है।

विडियोLLaMA3 — विडियोLLaMA3 एक अत्याधुनिक बहु-मोडल आधारभूत मॉडल है जो छवि और वीडियो समझ पर केंद्रित है।

WePOINTS — WePOINTS परियोजना बहु-मोडल मॉडल का एक एकीकृत ढाँचा प्रदान करती है

InternVL2_5-38B — उन्नत बहु-मोडल बड़े भाषा मॉडल श्रृंखला

पाठ-से-मुद्रा — पाठ के आधार पर मुद्रा उत्पन्न करने और आगे चलकर चित्र उत्पन्न करने वाला एक मॉडल।

Pixtral-Large-Instruct-2411 — 124B पैरामीटर वाला बहु-मोडल बड़ा भाषा मॉडल

LLaMA-Mesh — 3D ग्रिड निर्माण और भाषा मॉडल का एकीकरण

पश्चिम झील बड़ा मॉडल — उच्च भावनात्मक बुद्धिमत्ता और बुद्धिमत्ता वाला बहु-मोडल बड़ा मॉडल

मेटा लामा 3 — मेटा का नया पीढ़ी का खुला स्रोत बड़ा भाषा मॉडल, बेहतरीन प्रदर्शन वाला।

ग्रोक-1.5 विज़न पूर्वावलोकन — डिजिटल और भौतिक दुनिया को जोड़ने वाला पहला बहु-मोडल मॉडल

ग्लिफ़-बायटी5 — दृश्य पाठ को सटीक रूप से प्रदर्शित करने के लिए एक अनुकूलित पाठ एन्कोडर

ओल्लामा विंडोज़ पूर्वावलोकन — ओल्लामा विंडोज़ पर बड़े एआई मॉडल को स्थानीय रूप से चला सकता है।

Yi-VL-34B — उन्नत ओपन-सोर्स बहु-मोडल मॉडल

पेपरक्लिप — AI शोध पत्र स्मृति सहायक

Dioptra द्वारा LLM सैंडबॉक्स — ओपन-सोर्स डेटा प्रबंधन और अंकन प्लेटफ़ॉर्म

NeoBase — NeoBase एक ओपन-सोर्स AI डेटाबेस सहायक है जो आपको प्राकृतिक भाषा का उपयोग करके डेटाबेस के साथ इंटरैक्ट करने देता है।

क्लोन — क्लोन एक क्रांतिकारी कृत्रिम पेशी तकनीक Myofiber वाला एक मानवरूपी रोबोट है जो स्वाभाविक रूप से चल सकता है।

गॉसियनसिटी — एक कुशल सीमा रहित 3D शहरी पीढ़ी ढांचा, जो तेजी से पीढ़ी के लिए 3D गॉसियन ड्राइंग तकनीक का उपयोग करता है।

UniTok — UniTok एक एकीकृत दृश्य टोकनित्र है जिसका उपयोग दृश्य निर्माण और समझ के लिए किया जाता है।

IndexTTS — औद्योगिक स्तर पर नियंत्रणीय, कुशल शून्य-शॉट टेक्स्ट-टू-स्पीच सिस्टम

TheoremExplainAgent — TheoremExplainAgent एक बुद्धिमान प्रणाली है जो बहु-मोडल प्रमेय व्याख्या वीडियो बनाने के लिए उपयोग की जाती है।