अलीबाबा दामो संस्थान और चाइना पीपल्स यूनिवर्सिटी ने हाल ही में एक दस्तावेज़ प्रसंस्करण मॉडल mPLUG-DocOwl1.5 को ओपन-सोर्स किया है, जो बिना OCR पहचान के दस्तावेज़ सामग्री को समझने पर केंद्रित है, और कई दृश्य दस्तावेज़ समझ बेंचमार्क परीक्षणों में अग्रणी प्रदर्शन प्राप्त किया है।

संरचना की जानकारी समृद्ध पाठ छवियों (जैसे दस्तावेज़, तालिकाएँ और चार्ट) के अर्थ को समझने के लिए महत्वपूर्ण है। मौजूदा मल्टी-मोडल बड़े भाषा मॉडल (MLLM) में पाठ पहचान की क्षमता है, लेकिन समृद्ध पाठ दस्तावेज़ छवियों की सामान्य संरचना समझने की क्षमता की कमी है। इस समस्या को हल करने के लिए, mPLUG-DocOwl1.5 दृश्य दस्तावेज़ समझ में संरचना की जानकारी के महत्व पर जोर देता है, और MLLM के प्रदर्शन को बढ़ाने के लिए "एकीकृत संरचना अध्ययन" प्रस्तुत करता है।

1.png

इस मॉडल का "एकीकृत संरचना अध्ययन" 5 क्षेत्रों को शामिल करता है: दस्तावेज़, वेब पेज, तालिकाएँ, चार्ट और प्राकृतिक छवियाँ, जिसमें संरचना-संवेदनशील विश्लेषण कार्य और बहु-ग्रेड पाठ स्थान निर्धारण कार्य शामिल हैं। संरचना की जानकारी को बेहतर ढंग से कोड करने के लिए, शोधकर्ताओं ने एक सरल और प्रभावी दृश्य से पाठ मॉड्यूल H-Reducer डिजाइन किया है, जो न केवल लेआउट जानकारी को बनाए रखता है, बल्कि समांतर स्तर पर पड़ोसी छवि ब्लॉकों को संयोजित करके दृश्य विशेषताओं की लंबाई को कम करता है, जिससे बड़े भाषा मॉडल उच्च रिज़ॉल्यूशन छवियों को अधिक प्रभावी ढंग से समझ सकें।

2.png

इसके अतिरिक्त, संरचना अध्ययन का समर्थन करने के लिए, शोध टीम ने सार्वजनिक रूप से उपलब्ध डेटा सेट पर आधारित 400 लाख नमूनों वाला एक समग्र प्रशिक्षण सेट DocStruct4M बनाया है, जिसमें संरचना-संवेदनशील पाठ अनुक्रम और बहु-ग्रेड पाठ सीमा बक्से शामिल हैं। दस्तावेज़ क्षेत्र में MLLM की तर्क क्षमता को और बढ़ाने के लिए, उन्होंने 25,000 उच्च गुणवत्ता वाले नमूनों वाला एक तर्क माइक्रो-फाइन-ट्यूनिंग डेटा सेट DocReason25K भी बनाया है।

mPLUG-DocOwl1.5 एक दो चरणों के प्रशिक्षण ढांचे को अपनाता है, पहले एकीकृत संरचना अध्ययन किया जाता है, फिर कई डाउनस्ट्रीम कार्यों में बहु-कार्य माइक्रो-फाइन-ट्यूनिंग किया जाता है। इस प्रशिक्षण विधि के माध्यम से, mPLUG-DocOwl1.5 ने 10 दृश्य दस्तावेज़ समझ बेंचमार्क परीक्षणों में अत्याधुनिक प्रदर्शन प्राप्त किया है, 5 बेंचमार्क परीक्षणों में 7B LLM के SOTA प्रदर्शन को 10 प्रतिशत से अधिक बढ़ाया है।

वर्तमान में, mPLUG-DocOwl1.5 का कोड, मॉडल और डेटा सेट GitHub पर सार्वजनिक रूप से उपलब्ध हैं।

प्रोजेक्ट का पता: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

पेपर का पता: https://arxiv.org/pdf/2403.12895