अलीबाबा दामो संस्थान और चाइना पीपल्स यूनिवर्सिटी ने हाल ही में एक दस्तावेज़ प्रसंस्करण मॉडल mPLUG-DocOwl1.5 को ओपन-सोर्स किया है, जो बिना OCR पहचान के दस्तावेज़ सामग्री को समझने पर केंद्रित है, और कई दृश्य दस्तावेज़ समझ बेंचमार्क परीक्षणों में अग्रणी प्रदर्शन प्राप्त किया है।
संरचना की जानकारी समृद्ध पाठ छवियों (जैसे दस्तावेज़, तालिकाएँ और चार्ट) के अर्थ को समझने के लिए महत्वपूर्ण है। मौजूदा मल्टी-मोडल बड़े भाषा मॉडल (MLLM) में पाठ पहचान की क्षमता है, लेकिन समृद्ध पाठ दस्तावेज़ छवियों की सामान्य संरचना समझने की क्षमता की कमी है। इस समस्या को हल करने के लिए, mPLUG-DocOwl1.5 दृश्य दस्तावेज़ समझ में संरचना की जानकारी के महत्व पर जोर देता है, और MLLM के प्रदर्शन को बढ़ाने के लिए "एकीकृत संरचना अध्ययन" प्रस्तुत करता है।
इस मॉडल का "एकीकृत संरचना अध्ययन" 5 क्षेत्रों को शामिल करता है: दस्तावेज़, वेब पेज, तालिकाएँ, चार्ट और प्राकृतिक छवियाँ, जिसमें संरचना-संवेदनशील विश्लेषण कार्य और बहु-ग्रेड पाठ स्थान निर्धारण कार्य शामिल हैं। संरचना की जानकारी को बेहतर ढंग से कोड करने के लिए, शोधकर्ताओं ने एक सरल और प्रभावी दृश्य से पाठ मॉड्यूल H-Reducer डिजाइन किया है, जो न केवल लेआउट जानकारी को बनाए रखता है, बल्कि समांतर स्तर पर पड़ोसी छवि ब्लॉकों को संयोजित करके दृश्य विशेषताओं की लंबाई को कम करता है, जिससे बड़े भाषा मॉडल उच्च रिज़ॉल्यूशन छवियों को अधिक प्रभावी ढंग से समझ सकें।
इसके अतिरिक्त, संरचना अध्ययन का समर्थन करने के लिए, शोध टीम ने सार्वजनिक रूप से उपलब्ध डेटा सेट पर आधारित 400 लाख नमूनों वाला एक समग्र प्रशिक्षण सेट DocStruct4M बनाया है, जिसमें संरचना-संवेदनशील पाठ अनुक्रम और बहु-ग्रेड पाठ सीमा बक्से शामिल हैं। दस्तावेज़ क्षेत्र में MLLM की तर्क क्षमता को और बढ़ाने के लिए, उन्होंने 25,000 उच्च गुणवत्ता वाले नमूनों वाला एक तर्क माइक्रो-फाइन-ट्यूनिंग डेटा सेट DocReason25K भी बनाया है।
mPLUG-DocOwl1.5 एक दो चरणों के प्रशिक्षण ढांचे को अपनाता है, पहले एकीकृत संरचना अध्ययन किया जाता है, फिर कई डाउनस्ट्रीम कार्यों में बहु-कार्य माइक्रो-फाइन-ट्यूनिंग किया जाता है। इस प्रशिक्षण विधि के माध्यम से, mPLUG-DocOwl1.5 ने 10 दृश्य दस्तावेज़ समझ बेंचमार्क परीक्षणों में अत्याधुनिक प्रदर्शन प्राप्त किया है, 5 बेंचमार्क परीक्षणों में 7B LLM के SOTA प्रदर्शन को 10 प्रतिशत से अधिक बढ़ाया है।
वर्तमान में, mPLUG-DocOwl1.5 का कोड, मॉडल और डेटा सेट GitHub पर सार्वजनिक रूप से उपलब्ध हैं।
प्रोजेक्ट का पता: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
पेपर का पता: https://arxiv.org/pdf/2403.12895