एप्पल कंपनी ने हाल ही में अपने मल्टी-मोडल आर्टिफिशियल इंटेलिजेंस मॉडल MM1 के लिए एक महत्वपूर्ण अपडेट लॉन्च किया है, जिससे इसे MM1.5 संस्करण में अपग्रेड किया गया है। यह अपडेट केवल एक साधारण संस्करण संख्या परिवर्तन नहीं है, बल्कि यह एक समग्र क्षमता सुधार है, जिससे मॉडल विभिन्न क्षेत्रों में अधिक शक्तिशाली प्रदर्शन दिखा रहा है।

MM1.5 का मुख्य अपडेट इसके नवोन्मेषी डेटा प्रोसेसिंग विधियों में निहित है। इस मॉडल ने डेटा-केंद्रित प्रशिक्षण विधियों को अपनाया है, जिसमें प्रशिक्षण डेटा सेट को ध्यानपूर्वक छांटा और अनुकूलित किया गया है। विशेष रूप से, MM1.5 ने उच्च-परिभाषा OCR डेटा और संश्लेषित छवि विवरणों के साथ-साथ अनुकूलित दृश्य निर्देश माइक्रो-ट्यूनिंग डेटा मिश्रण का उपयोग किया है। इन डेटा का समावेश मॉडल को पाठ पहचान, छवि समझ और दृश्य निर्देशों को निष्पादित करने के क्षेत्रों में महत्वपूर्ण सुधार प्रदान करता है।

image.png

मॉडल के आकार के मामले में, MM1.5 में 10 अरब से 30 अरब पैरामीटर तक के कई संस्करण शामिल हैं, जिसमें घनी और विशेषज्ञ मिश्रण (MoE) रूपांतर भी शामिल हैं। यह ध्यान देने योग्य है कि छोटे आकार के 10 अरब और 30 अरब पैरामीटर मॉडल भी, ध्यानपूर्वक डिजाइन किए गए डेटा और प्रशिक्षण रणनीतियों के माध्यम से, प्रभावशाली प्रदर्शन स्तर प्राप्त कर सकते हैं।

image.png

MM1.5 की क्षमता में सुधार मुख्य रूप से निम्नलिखित क्षेत्रों में देखा गया है: पाठ घनत्व वाली छवि समझ, दृश्य संदर्भ और स्थान निर्धारण, बहु-छवि तर्क, वीडियो समझ और मोबाइल UI समझ। ये क्षमताएँ MM1.5 को व्यापक परिदृश्यों में लागू करने की अनुमति देती हैं, जैसे संगीत कार्यक्रम की तस्वीरों में प्रदर्शनकारियों और वाद्य यंत्रों की पहचान करना, चार्ट डेटा को समझना और संबंधित प्रश्नों का उत्तर देना, जटिल परिदृश्यों में विशिष्ट वस्तुओं का स्थान निर्धारण करना आदि।

image.png

image.png

MM1.5 के प्रदर्शन का मूल्यांकन करने के लिए, शोधकर्ताओं ने इसे अन्य उन्नत मल्टी-मोडल मॉडलों के साथ तुलना की। परिणाम दर्शाते हैं कि MM1.5-1B 10 अरब पैरामीटर के आकार के मॉडल में उत्कृष्ट प्रदर्शन करता है, जो समान स्तर के अन्य मॉडलों से स्पष्ट रूप से बेहतर है। MM1.5-3B का प्रदर्शन MiniCPM-V2.0 से आगे निकल गया है, और InternVL2 और Phi-3-Vision के साथ प्रतिस्पर्धा करता है। इसके अलावा, शोध ने यह भी पाया कि चाहे वह घनी मॉडल हो या MoE मॉडल, जैसे-जैसे आकार बढ़ता है, प्रदर्शन में भी महत्वपूर्ण सुधार होता है।

MM1.5 की सफलता न केवल एप्पल कंपनी की आर्टिफिशियल इंटेलिजेंस क्षेत्र में अनुसंधान और विकास की क्षमता को दर्शाती है, बल्कि मल्टी-मोडल मॉडलों के भविष्य के विकास के लिए दिशा भी प्रदान करती है। डेटा प्रोसेसिंग विधियों और मॉडल आर्किटेक्चर को अनुकूलित करके, छोटे आकार के मॉडल भी शक्तिशाली प्रदर्शन हासिल कर सकते हैं, जो संसाधन सीमित उपकरणों पर उच्च प्रदर्शन वाले AI मॉडल को तैनात करने के लिए महत्वपूर्ण है।

पत्र का पता: https://arxiv.org/pdf/2409.20566