हाल ही में, एप्पल की एआई अनुसंधान टीम ने अपनी नई पीढ़ी के मल्टी-मॉडल बड़े भाषा मॉडल (MLLMs) परिवार - MM1.5 को लॉन्च किया। यह मॉडल श्रृंखला पाठ, चित्र और अन्य प्रकार के डेटा को संयोजित करने में सक्षम है, जो हमें जटिल कार्यों को समझने में एआई की नई क्षमताएँ दिखाती है। जैसे कि दृश्य प्रश्न उत्तर, चित्र निर्माण और मल्टी-मॉडल डेटा व्याख्या जैसे कार्य, इन मॉडलों की मदद से बेहतर तरीके से हल किए जा सकते हैं।
मल्टी-मॉडल मॉडलों का एक बड़ा चुनौती यह है कि विभिन्न डेटा प्रकारों के बीच प्रभावी इंटरैक्शन कैसे किया जाए। पिछले मॉडलों ने अक्सर पाठ समृद्ध चित्रों या सूक्ष्म दृश्य कार्यों को संभालने में कठिनाई का सामना किया। इसलिए, एप्पल की अनुसंधान टीम ने MM1.5 मॉडल में एक अभिनव डेटा केंद्रीकरण विधि को पेश किया, जिसमें उच्च रिज़ॉल्यूशन वाले OCR डेटा और सिंथेटिक चित्र विवरणों का उपयोग करके मॉडल की समझ को मजबूत किया गया।
यह विधि न केवल MM1.5 को दृश्य समझ और स्थिति निर्धारण कार्यों में पूर्ववर्ती मॉडलों से आगे बढ़ाती है, बल्कि दो विशेष संस्करण के मॉडलों: MM1.5-Video और MM1.5-UI को भी पेश करती है, जो क्रमशः वीडियो समझ और मोबाइल इंटरफेस विश्लेषण के लिए उपयोग की जाती हैं।
MM1.5 मॉडल का प्रशिक्षण तीन मुख्य चरणों में विभाजित है।
पहला चरण बड़े पैमाने पर पूर्व-प्रशिक्षण है, जिसमें 2 अरब छवि और पाठ डेटा, 600 मिलियन इंटरलेव्ड छवि पाठ दस्तावेज़, और 2 ट्रिलियन केवल पाठ टोकन का उपयोग किया गया है।
दूसरा चरण 45 मिलियन उच्च गुणवत्ता वाले OCR डेटा और 7 मिलियन सिंथेटिक विवरणों के साथ निरंतर पूर्व-प्रशिक्षण है, जो पाठ समृद्ध चित्र कार्यों के प्रदर्शन को और बढ़ाता है।
अंत में, पर्यवेक्षित माइक्रो-ट्यूनिंग चरण में, मॉडल को एकल चित्र, बहु चित्र और केवल पाठ डेटा का उपयोग करके अनुकूलित किया जाता है, ताकि यह सूक्ष्म दृश्य संदर्भ और बहु चित्र अनुमान में अधिक कुशल हो सके।
एक श्रृंखला के मूल्यांकन के बाद, MM1.5 मॉडल ने कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया, विशेष रूप से पाठ समृद्ध चित्र समझने में, जिसने पिछले मॉडलों की तुलना में 1.4 अंक की वृद्धि दिखाई। इसके अलावा, वीडियो समझ के लिए विशेष रूप से डिज़ाइन किए गए MM1.5-Video ने भी अपनी शक्तिशाली मल्टी-मॉडल क्षमताओं के साथ संबंधित कार्यों में शीर्ष स्तर तक पहुँचाया।
MM1.5 मॉडल परिवार ने न केवल मल्टी-मॉडल बड़े भाषा मॉडलों के लिए नए मानक स्थापित किए, बल्कि विभिन्न अनुप्रयोगों में इसकी क्षमता भी प्रदर्शित की, सामान्य चित्र पाठ समझ से लेकर वीडियो और उपयोगकर्ता इंटरफेस विश्लेषण तक, सभी में उत्कृष्ट प्रदर्शन किया।
मुख्य बिंदु:
🌟 ** मॉडल विविधताएँ **: 10 अरब से 30 अरब तक के घनत्व वाले मॉडल और MoE मॉडल, जो स्केलेबिलिटी और लचीले तैनाती सुनिश्चित करते हैं।
📊 ** प्रशिक्षण डेटा **: 2 अरब छवि पाठ जोड़ों, 600 मिलियन इंटरलेव्ड छवि पाठ दस्तावेज़, और 2 ट्रिलियन केवल पाठ टोकन का उपयोग।
🚀 ** प्रदर्शन में सुधार **: पाठ समृद्ध चित्र समझने वाले बेंचमार्क परीक्षणों में, पूर्ववर्ती मॉडलों की तुलना में 1.4 अंक की वृद्धि प्राप्त की।