CogVLM

एक शक्तिशाली ओपन-सोर्स दृश्य भाषा मॉडल

सामान्य उत्पादछविदृश्य भाषा मॉडलछवि विवरण
CogVLM एक शक्तिशाली ओपन-सोर्स दृश्य भाषा मॉडल है। CogVLM-17B में 100 अरब दृश्य पैरामीटर और 70 अरब भाषा पैरामीटर हैं। CogVLM-17B ने 10 क्लासिक क्रॉस-मॉडल बेंचमार्क में अत्याधुनिक प्रदर्शन हासिल किया है, जिसमें NoCaps, Flicker30k कैप्शन, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA और TDIUC शामिल हैं, और VQAv2, OKVQA, TextVQA, COCO कैप्शन आदि में दूसरा स्थान प्राप्त किया है, जो PaLI-X 55B से मेल खाता है या उससे बेहतर है। CogVLM आपसे छवियों पर बातचीत भी कर सकता है।
वेबसाइट खोलें

CogVLM नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

474564576

बाउंस दर

36.20%

प्रति विज़िट औसत पृष्ठ

6.1

औसत विज़िट अवधि

00:06:34

CogVLM विज़िट प्रवृत्ति

CogVLM विज़िट भौगोलिक वितरण

CogVLM ट्रैफ़िक स्रोत

CogVLM विकल्प