CogVLM

एक शक्तिशाली ओपन-सोर्स दृश्य भाषा मॉडल

सामान्य उत्पादछविदृश्य भाषा मॉडलछवि विवरण

CogVLM एक शक्तिशाली ओपन-सोर्स दृश्य भाषा मॉडल है। CogVLM-17B में 100 अरब दृश्य पैरामीटर और 70 अरब भाषा पैरामीटर हैं। CogVLM-17B ने 10 क्लासिक क्रॉस-मॉडल बेंचमार्क में अत्याधुनिक प्रदर्शन हासिल किया है, जिसमें NoCaps, Flicker30k कैप्शन, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA और TDIUC शामिल हैं, और VQAv2, OKVQA, TextVQA, COCO कैप्शन आदि में दूसरा स्थान प्राप्त किया है, जो PaLI-X 55B से मेल खाता है या उससे बेहतर है। CogVLM आपसे छवियों पर बातचीत भी कर सकता है।

Best AI Websites & Tools

CogVLM

CogVLM नवीनतम ट्रैफ़िक स्थिति

CogVLM विज़िट प्रवृत्ति

CogVLM विज़िट भौगोलिक वितरण

CogVLM ट्रैफ़िक स्रोत

CogVLM विकल्प

CogVLM — एक शक्तिशाली ओपन-सोर्स दृश्य भाषा मॉडल

M2RAG — बहुविधा संदर्भ में पुनर्प्राप्ति-वर्धित पीढ़ी के लिए एक बेंचमार्क परीक्षण कोड भंडार।

SigLIP2 — SigLIP2 गूगल द्वारा विकसित एक बहुभाषी दृश्य भाषा एन्कोडर है, जो शून्य-शॉट छवि वर्गीकरण के लिए उपयोग किया जाता है।

VLM-R1 — VLM-R1 एक स्थिर और बहुउद्देशीय दृष्टिगत भाषा मॉडल है जो दृश्य समझ कार्यों पर केंद्रित है।

R1-V — कम लागत पर दृश्य भाषा मॉडल की सामान्यीकरण क्षमता को मजबूत करना, केवल 3 डॉलर से कम में।

MILS — LLM को किसी भी प्रशिक्षण की आवश्यकता के बिना देख और सुन सकता है।

मूनड्रीम AI — यह एक ओपन-सोर्स दृश्य भाषा मॉडल है जो कई उपकरणों पर चल सकता है।

PaliGemma2-3b-pt-224 — PaliGemma 2 एक शक्तिशाली दृश्य-भाषा मॉडल है जो कई भाषाओं में छवि और पाठ संसाधन कार्यों का समर्थन करता है।

PaliGemma2-3b-pt-448 — PaliGemma 2 एक शक्तिशाली दृश्य-भाषा मॉडल है जो कई दृश्य भाषा कार्यों का समर्थन करता है।

CogAgent-9B-20241220 — CogAgent-9B-20241220 एक दृश्य भाषा मॉडल आधारित GUI एजेंट मॉडल है।

विजन-पार्स — दृश्य भाषा मॉडल का उपयोग करके PDF को Markdown में परिवर्तित करता है।

CogAgent — खुले स्रोत वाला एंड-टू-एंड दृश्य भाषा मॉडल (VLM) आधारित GUI एजेंट

पीटरकैट — समुदाय के रखरखावकर्ताओं और डेवलपर्स के लिए बनाया गया एक बुद्धिमान प्रश्नोत्तर रोबोट समाधान।

PicWordify — वेबसाइट की तस्वीरों के लिए विवरणात्मक पाठ स्वचालित रूप से उत्पन्न करता है

DeepSeek-VL2-Small — उन्नत बड़ा मिश्रित विशेषज्ञ दृश्य भाषा मॉडल

DeepSeek-VL2-टाइनी — उन्नत बड़ा मिश्रित विशेषज्ञ दृश्य भाषा मॉडल

POINTS-Yi-1.5-9B-Chat — दृश्य भाषा मॉडल की नवीनतम प्रगति, WeChat AI की नई तकनीक को एकीकृत करता है

POINTS-Qwen-2-5-7B-Chat — दृश्य भाषा मॉडल की नवीनतम प्रगति

POINTS-1-5-Qwen-2-5-7B-Chat — अग्रणी दृश्य भाषा मॉडल, द्विभाषी और उच्च-गुणवत्ता नियंत्रण का समर्थन करता है, मुफ़्त।

DeepSeek-VL2 — एक उन्नत बहु-विधा समझ मॉडल जो दृश्य और भाषा क्षमताओं को एकीकृत करता है।

Reddit उत्तर — Reddit का नया प्रश्नोत्तर फ़ीचर, AI तकनीक के माध्यम से समुदाय की जानकारी और चर्चा प्राप्त करता है।

ओपनजीवीएलब इंटर्नवीएल — एक एआई दृश्य भाषा मॉडल जो चित्र विश्लेषण और विवरण सेवाएँ प्रदान करता है।

Florence-VL — दृश्य भाषा मॉडल एन्हांस्मेंट टूल, जनरेटिव दृश्य एन्कोडर और गहन चौड़ाई फ्यूजन तकनीक को जोड़ता है।

Qwen2-VL-7B — Qwen2-VL-7B एक नवीनतम दृश्य भाषा मॉडल है जो बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

Qwen2-VL-2B — अत्याधुनिक दृश्य भाषा मॉडल, बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

PaliGemma 2 — PaliGemma 2 एक शक्तिशाली दृश्य भाषा मॉडल है, जिसे आसानी से अनुकूलित किया जा सकता है।