हाल ही में, एक ओपन-सोर्स मल्टी-मोडल आर्टिफिशियल इंटेलिजेंस मॉडल Molmo ने उद्योग में व्यापक ध्यान आकर्षित किया है। यह AI सिस्टम Qwen2-72B के आधार पर है और OpenAI के CLIP का उपयोग दृश्य प्रसंस्करण इंजन के रूप में करता है, जो अपनी उत्कृष्ट प्रदर्शन और नवोन्मेषी कार्यक्षमता के साथ पारंपरिक व्यावसायिक मॉडलों की प्रधानता को चुनौती दे रहा है।

Molmo की विशेषता इसकी कुशल प्रदर्शन है। यद्यपि इसका आकार अपेक्षाकृत छोटा है, लेकिन यह बड़े प्रतिस्पर्धियों के साथ समानता रखता है, जो आकार में दस गुना बड़े हैं। यह "छोटा और उत्कृष्ट" डिज़ाइन सिद्धांत न केवल मॉडल की दक्षता को बढ़ाता है, बल्कि विभिन्न अनुप्रयोग परिदृश्यों में तैनाती के लिए अधिक लचीलापन भी प्रदान करता है।

पारंपरिक मल्टी-मोडल मॉडलों की तुलना में, Molmo की नवीनता इसकी निर्देशित कार्यक्षमता में निहित है। यह विशेषता मॉडल को वास्तविक और आभासी वातावरण के साथ गहरे इंटरैक्शन की अनुमति देती है, जिससे मानव-मशीन इंटरैक्शन और संवर्धित वास्तविकता जैसे अनुप्रयोगों के लिए नए संभावनाओं का द्वार खुलता है। यह डिज़ाइन न केवल मॉडल की उपयोगिता को बढ़ाता है, बल्कि भविष्य में AI और वास्तविक दुनिया के गहरे एकीकरण के लिए आधार तैयार करता है।

image.png

प्रदर्शन मूल्यांकन के मामले में, Molmo-72B का प्रदर्शन विशेष रूप से उज्ज्वल है। इसने कई शैक्षणिक मानक परीक्षणों में नए रिकॉर्ड स्थापित किए हैं और मानव मूल्यांकन में GPT-4o के बाद दूसरे स्थान पर है। यह उपलब्धि Molmo के वास्तविक अनुप्रयोगों में उत्कृष्ट प्रदर्शन को स्पष्ट रूप से प्रमाणित करती है।

Molmo की एक और बड़ी विशेषता इसकी ओपन-सोर्स प्रकृति है। मॉडल का वजन, कोड, डेटा और मूल्यांकन विधियाँ सभी सार्वजनिक हैं, जो न केवल ओपन-सोर्स भावना को दर्शाता है, बल्कि पूरे AI समुदाय के विकास में महत्वपूर्ण योगदान भी करता है। यह खुला दृष्टिकोण AI तकनीक के त्वरित पुनरावृत्ति और नवाचार को बढ़ावा देने में मदद करेगा।

विशिष्ट कार्यक्षमता के मामले में, Molmo व्यापक क्षमताओं का प्रदर्शन करता है। यह न केवल उच्च गुणवत्ता वाली छवि विवरण उत्पन्न कर सकता है, बल्कि छवि सामग्री को सटीकता से समझ सकता है और संबंधित प्रश्नों के उत्तर दे सकता है। मल्टी-मोडल इंटरैक्शन में, Molmo पाठ और छवियों के समवर्ती इनपुट का समर्थन करता है और 2D निर्देशित इंटरैक्शन के माध्यम से दृश्य सामग्री के साथ इंटरैक्शन को बढ़ा सकता है। ये सुविधाएँ AI को वास्तविक अनुप्रयोगों में व्यापक संभावनाएँ प्रदान करती हैं।

image.png

Molmo की सफलता का एक बड़ा हिस्सा इसके उच्च गुणवत्ता वाले प्रशिक्षण डेटा पर निर्भर करता है। विकास टीम ने नवोन्मेषी डेटा संग्रह विधियों का उपयोग किया, जो छवियों का वॉयस विवरण देकर अधिक विस्तृत सामग्री जानकारी प्राप्त करती हैं। यह विधि न केवल सामान्य पाठ विवरण के संक्षिप्तता के मुद्दों से बचती है, बल्कि उच्च गुणवत्ता वाले, विविध प्रशिक्षण डेटा का एक बड़ा संग्रह भी करती है।

विविधता के मामले में, Molmo का डेटा सेट व्यापक परिदृश्यों और सामग्री को कवर करता है, जो विभिन्न उपयोगकर्ता इंटरैक्शन तरीकों का समर्थन करता है। यह Molmo को विशिष्ट कार्यों में उत्कृष्टता प्रदान करता है, जैसे कि छवियों से संबंधित प्रश्नों का उत्तर देना, OCR कार्यों में सुधार करना आदि।

यह उल्लेखनीय है कि Molmo ने अन्य मॉडलों की तुलना में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से शैक्षणिक मानक परीक्षणों और मानव मूल्यांकन में। यह न केवल Molmo की क्षमता को प्रमाणित करता है, बल्कि AI मूल्यांकन विधियों के लिए एक नया संदर्भ भी प्रदान करता है।

Molmo की सफलता एक बार फिर यह साबित करती है कि AI विकास में डेटा की गुणवत्ता मात्रा से अधिक महत्वपूर्ण है। लगभग 1 मिलियन छवि-टेक्स्ट जोड़ों का उपयोग करके, Molmo ने आश्चर्यजनक प्रशिक्षण दक्षता और प्रदर्शन प्रदर्शित किया। यह भविष्य के AI मॉडलों के विकास के लिए नए दृष्टिकोण प्रदान करता है।

परियोजना का पता: https://molmo.allenai.org/blog