हाल ही में, एप्पल की एआई अनुसंधान टीम ने अपनी नई पीढ़ी के मल्टी-मॉडल बड़े भाषा मॉडल (MLLMs) परिवार - MM1.5 को लॉन्च किया। यह मॉडल श्रृंखला पाठ, चित्र और अन्य प्रकार के डेटा को संयोजित करने में सक्षम है, जो हमें जटिल कार्यों को समझने में एआई की नई क्षमताएँ दिखाती है। जैसे कि दृश्य प्रश्न उत्तर, चित्र निर्माण और मल्टी-मॉडल डेटा व्याख्या जैसे कार्य, इन मॉडलों की मदद से बेहतर तरीके से हल किए जा सकते हैं।

image.png

मल्टी-मॉडल मॉडलों का एक बड़ा चुनौती यह है कि विभिन्न डेटा प्रकारों के बीच प्रभावी इंटरैक्शन कैसे किया जाए। पिछले मॉडलों ने अक्सर पाठ समृद्ध चित्रों या सूक्ष्म दृश्य कार्यों को संभालने में कठिनाई का सामना किया। इसलिए, एप्पल की अनुसंधान टीम ने MM1.5 मॉडल में एक अभिनव डेटा केंद्रीकरण विधि को पेश किया, जिसमें उच्च रिज़ॉल्यूशन वाले OCR डेटा और सिंथेटिक चित्र विवरणों का उपयोग करके मॉडल की समझ को मजबूत किया गया।

image.png

यह विधि न केवल MM1.5 को दृश्य समझ और स्थिति निर्धारण कार्यों में पूर्ववर्ती मॉडलों से आगे बढ़ाती है, बल्कि दो विशेष संस्करण के मॉडलों: MM1.5-Video और MM1.5-UI को भी पेश करती है, जो क्रमशः वीडियो समझ और मोबाइल इंटरफेस विश्लेषण के लिए उपयोग की जाती हैं।

MM1.5 मॉडल का प्रशिक्षण तीन मुख्य चरणों में विभाजित है।

पहला चरण बड़े पैमाने पर पूर्व-प्रशिक्षण है, जिसमें 2 अरब छवि और पाठ डेटा, 600 मिलियन इंटरलेव्ड छवि पाठ दस्तावेज़, और 2 ट्रिलियन केवल पाठ टोकन का उपयोग किया गया है।

दूसरा चरण 45 मिलियन उच्च गुणवत्ता वाले OCR डेटा और 7 मिलियन सिंथेटिक विवरणों के साथ निरंतर पूर्व-प्रशिक्षण है, जो पाठ समृद्ध चित्र कार्यों के प्रदर्शन को और बढ़ाता है।

अंत में, पर्यवेक्षित माइक्रो-ट्यूनिंग चरण में, मॉडल को एकल चित्र, बहु चित्र और केवल पाठ डेटा का उपयोग करके अनुकूलित किया जाता है, ताकि यह सूक्ष्म दृश्य संदर्भ और बहु चित्र अनुमान में अधिक कुशल हो सके।

एक श्रृंखला के मूल्यांकन के बाद, MM1.5 मॉडल ने कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया, विशेष रूप से पाठ समृद्ध चित्र समझने में, जिसने पिछले मॉडलों की तुलना में 1.4 अंक की वृद्धि दिखाई। इसके अलावा, वीडियो समझ के लिए विशेष रूप से डिज़ाइन किए गए MM1.5-Video ने भी अपनी शक्तिशाली मल्टी-मॉडल क्षमताओं के साथ संबंधित कार्यों में शीर्ष स्तर तक पहुँचाया।

MM1.5 मॉडल परिवार ने न केवल मल्टी-मॉडल बड़े भाषा मॉडलों के लिए नए मानक स्थापित किए, बल्कि विभिन्न अनुप्रयोगों में इसकी क्षमता भी प्रदर्शित की, सामान्य चित्र पाठ समझ से लेकर वीडियो और उपयोगकर्ता इंटरफेस विश्लेषण तक, सभी में उत्कृष्ट प्रदर्शन किया।

मुख्य बिंदु:

🌟 ** मॉडल विविधताएँ **: 10 अरब से 30 अरब तक के घनत्व वाले मॉडल और MoE मॉडल, जो स्केलेबिलिटी और लचीले तैनाती सुनिश्चित करते हैं।

📊 ** प्रशिक्षण डेटा **: 2 अरब छवि पाठ जोड़ों, 600 मिलियन इंटरलेव्ड छवि पाठ दस्तावेज़, और 2 ट्रिलियन केवल पाठ टोकन का उपयोग।

🚀 ** प्रदर्शन में सुधार **: पाठ समृद्ध चित्र समझने वाले बेंचमार्क परीक्षणों में, पूर्ववर्ती मॉडलों की तुलना में 1.4 अंक की वृद्धि प्राप्त की।