हाल ही में, सिएटल की एक स्टार्टअप कंपनी Moondream ने moondream2 नामक एक कॉम्पैक्ट विज़ुअल लैंग्वेज मॉडल लॉन्च किया है। इसके छोटे आकार के बावजूद, यह मॉडल विभिन्न बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन कर रहा है और ध्यान आकर्षित कर रहा है। एक ओपन-सोर्स मॉडल के रूप में, moondream2 स्मार्टफोन पर स्थानीय छवि पहचान कार्यक्षमता को सक्षम करने की उम्मीद करता है।

image.png

moondream2 मार्च में आधिकारिक रूप से लॉन्च हुआ, यह मॉडल टेक्स्ट और इमेज इनपुट को संभाल सकता है, और प्रश्नों का उत्तर देने, टेक्स्ट एक्सट्रैक्शन (OCR), वस्तु गणना और वस्तु वर्गीकरण जैसी क्षमताएँ रखता है। इसके लॉन्च के बाद से, Moondream टीम ने इस मॉडल को लगातार अपडेट किया है और इसके बेंचमार्क प्रदर्शन में सुधार किया है। जुलाई के संस्करण ने OCR और दस्तावेज़ समझ में महत्वपूर्ण प्रगति दिखाई, विशेष रूप से ऐतिहासिक आर्थिक डेटा के विश्लेषण में उत्कृष्ट प्रदर्शन किया। इस मॉडल ने DocVQA, TextVQA और GQA में 60% से अधिक अंक प्राप्त किए, जो इसके स्थानीय निष्पादन की मजबूत क्षमता को दर्शाता है।

moondream2 की एक प्रमुख विशेषता इसका कॉम्पैक्ट आकार है: इसमें केवल 1.6 अरब पैरामीटर हैं, जो इसे न केवल क्लाउड सर्वरों पर चलाने में सक्षम बनाता है, बल्कि इसे स्थानीय कंप्यूटरों और कुछ निम्न प्रदर्शन वाले उपकरणों जैसे स्मार्टफोन या सिंगल-बोर्ड कंप्यूटर पर भी चलाने की अनुमति देता है।

हालांकि इसका आकार छोटा है, लेकिन इसका प्रदर्शन कुछ प्रतियोगी मॉडलों के समान है जिनमें कई अरब पैरामीटर हैं, और कुछ बेंचमार्क परीक्षणों में यह बड़े मॉडलों से बेहतर प्रदर्शन करता है।

मोबाइल डिवाइस विज़ुअल लैंग्वेज मॉडलों की तुलना में, शोधकर्ताओं ने बताया कि, जबकि moondream2 के पास केवल 1.7 करोड़ पैरामीटर हैं, इसका प्रदर्शन 7 करोड़ पैरामीटर वाले मॉडल के समान है, केवल SQA डेटा सेट में इसका प्रदर्शन थोड़ा कम है। यह दर्शाता है कि, जबकि छोटे मॉडल उत्कृष्ट प्रदर्शन करते हैं, विशेष संदर्भों को समझने में अभी भी चुनौतियाँ हैं।

image.png

इस मॉडल के डेवलपर Vikhyat Korrapati ने कहा कि moondream2 अन्य मॉडलों जैसे SigLIP, माइक्रोसॉफ्ट के Phi-1.5 और LLaVA प्रशिक्षण डेटा सेट पर आधारित है। यह ओपन-सोर्स मॉडल अब GitHub पर मुफ्त डाउनलोड के लिए उपलब्ध है और Hugging Face पर इसका डेमो संस्करण प्रदर्शित किया गया है। कोडिंग प्लेटफ़ॉर्म पर, moondream2 ने डेवलपर समुदाय का व्यापक ध्यान आकर्षित किया है, जिसमें 5000 से अधिक स्टार रेटिंग प्राप्त की है।

इस सफलता ने निवेशकों का ध्यान आकर्षित किया है: Felicis Ventures, माइक्रोसॉफ्ट के M12GitHub फंड और Ascend द्वारा नेतृत्व किए गए सीड राउंड फंडिंग में, Moondream ने 4.5 मिलियन डॉलर जुटाने में सफल रहा। कंपनी के CEO Jay Allen ने कई वर्षों तक अमेज़ॅन वेब सर्विसेज (AWS) में काम किया है और इस तेजी से बढ़ती स्टार्टअप का नेतृत्व कर रहे हैं।

moondream2 का लॉन्च पेशेवर रूप से अनुकूलित ओपन-सोर्स मॉडलों की एक श्रृंखला की शुरुआत का प्रतीक है, जो बड़े और पुराने मॉडलों के समान प्रदर्शन प्रदान करते समय कम संसाधनों की आवश्यकता होती है। वर्तमान में बाजार में कुछ छोटे स्थानीय मॉडल मौजूद हैं, जैसे एप्पल का स्मार्ट असिस्टेंट और गूगल का Gemini Nano, लेकिन ये दोनों कंपनियाँ अभी भी अधिक जटिल कार्यों को क्लाउड समाधान के लिए आउटसोर्स कर रही हैं।

huggingface:https://huggingface.co/vikhyatk/moondream2

github:https://github.com/vikhyat/moondream

मुख्य बातें:

🌟 Moondream ने moondream2 लॉन्च किया, जो केवल 1.6 करोड़ पैरामीटर वाला विज़ुअल लैंग्वेज मॉडल है, जो स्मार्टफोन जैसे छोटे उपकरणों पर चल सकता है।  

📈 यह मॉडल शक्तिशाली टेक्स्ट और इमेज प्रोसेसिंग क्षमताएँ रखता है, प्रश्नों का उत्तर देने, OCR, वस्तु गणना और वर्गीकरण करने में सक्षम है, और बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है।  

💰 Moondream ने 4.5 मिलियन डॉलर की फंडिंग जुटाई है, CEO ने अमेज़न में काम किया है, और टीम लगातार मॉडल के प्रदर्शन को अपडेट और सुधार रही है।