हाल ही में, कई चीनी अनुसंधान संस्थानों की अनुसंधान टीमों ने Infinity-MM नामक एक विशाल बहु-मोडल डेटा सेट जारी किया है, और इस डेटा सेट के आधार पर एक उत्कृष्ट प्रदर्शन करने वाले AI मॉडल Aquila-VL-2B को प्रशिक्षित किया है। यह突破 बहु-मोडल AI के विकास में नई ऊर्जा का संचार करता है।
Infinity-MM डेटा सेट का आकार आश्चर्यजनक है, जिसमें चार प्रमुख प्रकार के डेटा शामिल हैं: 1 करोड़ छवि विवरण, 2.44 करोड़ सामान्य दृश्य निर्देश डेटा, 60 लाख चयनित उच्च गुणवत्ता वाले निर्देश डेटा, और 30 लाख डेटा जो GPT-4 जैसे AI मॉडल द्वारा उत्पन्न किए गए हैं। अनुसंधान टीम ने छवि विश्लेषण और जानकारी निकालने के लिए ओपन-सोर्स AI मॉडल RAM++ का उपयोग किया और उत्पन्न डेटा की गुणवत्ता और विविधता सुनिश्चित करने के लिए अद्वितीय छह श्रेणी प्रणाली का पालन किया।
चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अनुज्ञा सेवा प्रदाता Midjourney
मॉडल आर्किटेक्चर के मामले में, Aquila-VL-2B LLaVA-OneVision पर आधारित है, जो Qwen-2.5 भाषा मॉडल और SigLIP छवि प्रसंस्करण तकनीक को एकीकृत करता है। अनुसंधान टीम ने चार चरणों में प्रगतिशील प्रशिक्षण विधि अपनाई: प्रारंभिक चित्र-शब्द संबंध सीखने से शुरू होकर, सामान्य दृश्य कार्यों, विशिष्ट निर्देश प्रसंस्करण में धीरे-धीरे संक्रमण करते हुए, अंत में समुचित डेटा को शामिल किया, साथ ही चित्र की संकल्पना की सीमा को धीरे-धीरे बढ़ाया।
हालांकि केवल 20 अरब पैरामीटर का आकार है, Aquila-VL-2B ने विभिन्न मानक परीक्षणों में उत्कृष्ट प्रदर्शन किया है। बहु-मोडल समझ क्षमता परीक्षण MMStar में 54.9% का सर्वश्रेष्ठ स्कोर प्राप्त किया, जबकि गणितीय क्षमता परीक्षण MathVista में 59% का उच्च स्कोर प्राप्त किया, जो समान प्रणाली को स्पष्ट रूप से पार कर गया। सामान्य छवि समझ परीक्षण में, इस मॉडल ने HallusionBench और MMBench में क्रमशः 43% और 75.2% का उत्कृष्ट स्कोर प्राप्त किया।
अनुसंधान से पता चला है कि समुचित डेटा का समावेश मॉडल के प्रदर्शन में महत्वपूर्ण योगदान देता है। प्रयोगों से पता चला है कि यदि इन अतिरिक्त डेटा का उपयोग नहीं किया जाता है, तो मॉडल का प्रदर्शन औसतन 2.4% गिर जाता है। तीसरे चरण से, Aquila-VL-2B का प्रदर्शन InternVL2-2B और Qwen2VL-2B जैसे संदर्भ मॉडलों को स्पष्ट रूप से पार कर गया, विशेष रूप से चौथे चरण में, डेटा की मात्रा बढ़ने के साथ प्रदर्शन में स्पष्ट सुधार हुआ।
यह उल्लेखनीय है कि अनुसंधान टीम ने डेटा सेट और मॉडल को अनुसंधान समुदाय के लिए खोल दिया है, जो बहु-मोडल AI तकनीक के विकास को काफी बढ़ावा देगा। यह मॉडल न केवल Nvidia A100GPU पर प्रशिक्षण पूरा करता है, बल्कि चीनी स्व-निर्मित चिप्स का भी समर्थन करता है, जो शक्तिशाली हार्डवेयर अनुकूलता को प्रदर्शित करता है।