मूनड्रीम-एक शक्तिशाली छोटा दृश्य भाषा मॉडल, हर जगह मौजूद है

मूनड्रीम एक 1.6 बिलियन पैरामीटर मॉडल है जो SigLIP, Phi-1.5 और LLaVA प्रशिक्षण डेटासेट का उपयोग करके बनाया गया है। LLaVA डेटासेट के उपयोग के कारण, वज़न CC-BY-SA लाइसेंस के अंतर्गत सुरक्षित हैं। आप इसे Huggingface Spaces पर आज़मा सकते हैं। यह मॉडल VQAv2, GQA, VizWiz और TextVQA बेंचमार्क में इस प्रकार प्रदर्शन करता है: LLaVA-1.5 (13.3B पैरामीटर): 80.0, 63.3, 53.6, 61.3; LLaVA-1.5 (7.3B पैरामीटर): 78.5, 62.0, 50.0, 58.2; MC-LLaVA-3B (3B पैरामीटर): 64.2, 49.6, 24.9, 38.6; LLaVA-Phi (3B पैरामीटर): 71.4, -, 35.9, 48.6; moondream1 (1.6B पैरामीटर): 74.3, 56.3, 30.3, 39.8।

Best AI Websites & Tools

मूनड्रीम

मूनड्रीम नवीनतम ट्रैफ़िक स्थिति

मूनड्रीम विज़िट प्रवृत्ति

मूनड्रीम विज़िट भौगोलिक वितरण

मूनड्रीम ट्रैफ़िक स्रोत

मूनड्रीम विकल्प

मूनड्रीम — एक शक्तिशाली छोटा दृश्य भाषा मॉडल, हर जगह मौजूद है

MiniCPM-o — MiniCPM-o 2.6: एक GPT-4o-स्तरीय MLLM जो मोबाइल पर दृश्य, ध्वनि और बहु-मोडल लाइव स्ट्रीमिंग को सक्षम बनाता है।

BizyAir — किसी भी वातावरण में चलने वाला ComfyUI नोड

Qwen-VL — सामान्य दृश्य भाषा मॉडल

दृष्टि जाँच — मॉडल के बीच स्ट्रिंग संबंधों का अध्ययन करना, दृश्यमान दुनिया की जांच करना

InternVL — मुक्त स्रोत दृश्य आधार मॉडल

ओपनमैनस — ओपनमैनस एक ओपन-सोर्स बुद्धिमान एजेंट प्रोजेक्ट है जिसका उपयोग बिना आमंत्रण कोड के किया जा सकता है।

वीड्रा — VDraw एक AI तकनीक द्वारा संचालित डिज़ाइन उपकरण है जो पाठ और फ़ाइलों को पेशेवर दृश्य छवियों में बदलता है।

UniTok — UniTok एक एकीकृत दृश्य टोकनित्र है जिसका उपयोग दृश्य निर्माण और समझ के लिए किया जाता है।

Phi-4-mini-instruct — Phi-4-mini-instruct एक हल्का ओपन-सोर्स भाषा मॉडल है, जो उच्च-गुणवत्ता वाले निष्कर्षण-गहन डेटा पर केंद्रित है।

स्मिथरी — मॉडल संदर्भ प्रोटोकॉल सर्वर के माध्यम से भाषा मॉडल की क्षमताओं का विस्तार करता है।

DeepHermes-3-Llama-3-8B-पूर्वावलोकन — DeepHermes 3 एक बड़ा भाषा मॉडल है जो निष्कर्षण और सामान्य प्रतिक्रिया मोड दोनों का समर्थन करता है।

Lora — Lora एक मोबाइल उपकरणों के लिए अनुकूलित स्थानीय भाषा मॉडल है जो iOS और Android प्लेटफॉर्म का समर्थन करता है।

PaliGemma 2 मिश्रण — PaliGemma 2 मिश्रण एक बहुउद्देशीय दृश्य भाषा मॉडल है जो कई कार्यों और क्षेत्रों के लिए उपयुक्त है।

Mistral Saba — Mistral Saba एक मध्य पूर्व और दक्षिण एशिया के लिए बनाया गया क्षेत्रीय भाषा मॉडल है।

OLMoE ऐप — Ai2 OLMoE एक ओपन-सोर्स भाषा मॉडल ऐप है जो iOS डिवाइस पर चलता है।