हाल ही में, अलीबाबा की एआई अनुसंधान टीम ने दस्तावेज़ समझ के क्षेत्र में ध्यान आकर्षित करने वाली प्रगति की है। उन्होंने mPLUG-DocOwl1.5 लॉन्च किया है, जो एक अत्याधुनिक मॉडल है जो बिना OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) दस्तावेज़ समझ कार्यों में उत्कृष्ट प्रदर्शन करता है।
पहले, जब हम दस्तावेज़ समझ कार्यों को संभालते थे, तो हम आमतौर पर टेक्स्ट को चित्रों से निकालने के लिए OCR तकनीक पर निर्भर करते थे, लेकिन यह अक्सर जटिल लेआउट और दृश्य शोर से प्रभावित होता था। जबकि mPLUG-DocOwl1.5 ने एक नए एकीकृत संरचना अध्ययन ढांचे के माध्यम से सीधे चित्रों से दस्तावेज़ को समझने के लिए सीखा, इस बाधा को चतुराई से पार कर लिया।
यह मॉडल विभिन्न क्षेत्रों में दस्तावेज़ों के लेआउट और संगठन की क्षमताओं का विश्लेषण करके सामान्य दस्तावेज़, तालिकाएँ, चार्ट, वेबपृष्ठ और प्राकृतिक चित्रों जैसे पाँच क्षेत्रों को कवर करता है। यह न केवल सही ढंग से टेक्स्ट की पहचान करता है, बल्कि दस्तावेज़ संरचना को समझते समय स्पेस और नई लाइन जैसे तत्वों का भी उपयोग करता है।
तालिकाओं के लिए, मॉडल संरचित Markdown प्रारूप उत्पन्न कर सकता है, और चार्ट को पार्स करते समय, यह लेजेंड, अक्ष और संख्याओं के बीच के संबंध को समझकर उन्हें डेटा तालिका में परिवर्तित करता है। इसके अलावा, mPLUG-DocOwl1.5 में प्राकृतिक चित्रों से टेक्स्ट निकालने की क्षमता भी है।
टेक्स्ट स्थानीयकरण के मामले में, mPLUG-DocOwl1.5 शब्दों, वाक्यांशों, पंक्तियों और ब्लॉकों को पहचानने और स्थिति में रखने में सक्षम है, यह सुनिश्चित करता है कि टेक्स्ट और चित्र क्षेत्र के बीच सटीक संरेखण हो। जबकि इसके पीछे का H-Reducer आर्किटेक्चर दृश्य विशेषताओं को संयोजित करने के लिए समवर्ती संचालन का उपयोग करता है, यह स्थानिक लेआउट को बनाए रखते हुए अनुक्रम की लंबाई को कम करता है, जिससे प्रसंस्करण दक्षता में सुधार होता है।
इस मॉडल को प्रशिक्षित करने के लिए, अनुसंधान टीम ने दो सावधानीपूर्वक चयनित डेटा सेट का उपयोग किया। DocStruct4M एक बड़े पैमाने का डेटा सेट है, जो एकीकृत संरचना अध्ययन पर केंद्रित है, जबकि DocReason25K मॉडल की तर्क क्षमता का परीक्षण करने के लिए चरणबद्ध प्रश्नोत्तर का उपयोग करता है।
परिणाम दिखाते हैं कि mPLUG-DocOwl1.5 ने दस बेंचमार्क परीक्षणों में नए रिकॉर्ड स्थापित किए हैं, समान मॉडल की तुलना में आधे कार्यों पर 10 अंक से अधिक की वृद्धि प्राप्त की है। इसके अलावा, इसने उत्कृष्ट भाषा तर्क क्षमता का प्रदर्शन किया है, जो अपने उत्तरों के लिए विस्तृत चरणबद्ध स्पष्टीकरण उत्पन्न कर सकता है।
हालांकि mPLUG-DocOwl1.5 ने कई क्षेत्रों में महत्वपूर्ण प्रगति की है, शोधकर्ता यह भी समझते हैं कि मॉडल में सुधार की गुंजाइश है, विशेष रूप से असंगत या गलत बयानों को संभालने में। भविष्य में, टीम एकीकृत संरचना अध्ययन ढांचे को और विस्तारित करने की उम्मीद करती है, ताकि अधिक दस्तावेज़ प्रकारों और कार्यों को कवर किया जा सके, और दस्तावेज़ एआई के विकास को आगे बढ़ाया जा सके।
पत्र: https://arxiv.org/abs/2403.12895
कोड: https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
मुख्य बिंदु:
📄 mPLUG-DocOwl1.5 एक ऐसा AI मॉडल है जो बिना OCR दस्तावेज़ समझ कार्यों में उत्कृष्ट प्रदर्शन करता है।
🔍 यह मॉडल दस्तावेज़ लेआउट का विश्लेषण कर सकता है, विभिन्न दस्तावेज़ प्रकारों को कवर करता है, और चित्रों से सीधे सीखकर समझ सकता है।
📈 mPLUG-DocOwl1.5 ने दस बेंचमार्क परीक्षणों में नए रिकॉर्ड स्थापित किए हैं, जो उत्कृष्ट भाषा तर्क क्षमता का प्रदर्शन करता है।