2024 में WAIC विज्ञान के मुख्य मंच पर, शंघाई आर्टिफिशियल इंटेलिजेंस लेबोरेटरी (शंघाई AI लेबोरेटरी) के बड़े मॉडल डेटा आधार OpenDataLab टीम ने MinerU नामक एक नया स्मार्ट डेटा निष्कर्षण उपकरण पेश किया। यह उपकरण AI डेटा प्रोसेसिंग प्रक्रिया को सरल बनाने के लिए डिज़ाइन किया गया है, जो AI शोधकर्ताओं को विशाल दस्तावेजों से उच्च गुणवत्ता वाले डेटा निकालने में मदद करता है।
MinerU एक बहुपरकारी, ओपन-सोर्स दस्तावेज़ और वेब डेटा निष्कर्षण उपकरण है, जो चित्र, तालिकाएँ, सूत्र आदि सहित मल्टीमोडल PDF दस्तावेज़ों को स्पष्ट और विश्लेषण करने में आसान Markdown प्रारूप में परिवर्तित कर सकता है। यह विज्ञापनों जैसे बाधित जानकारी वाले वेब पृष्ठों से जल्दी से औपचारिक सामग्री निकालने में सक्षम है, और epub, mobi, docx जैसी विभिन्न प्रारूपों को सामूहिक रूप से Markdown में परिवर्तित करने का समर्थन करता है।
MinerU दो मुख्य भागों में बाँटा गया है: Magic-PDF और Magic-Doc। Magic-PDF PDF दस्तावेज़ निष्कर्षण पर ध्यान केंद्रित करता है, PDF को Markdown प्रारूप में परिवर्तित करता है, PDF लेआउट तत्वों को तेजी से पहचानता है, गैर-पाठ सामग्री को स्वचालित रूप से हटा देता है, और मूल दस्तावेज़ की संरचना और प्रारूप को बनाए रखता है। Magic-Doc वेब और ई-बुक निष्कर्षण के लिए जिम्मेदार है, सामान्य लेख, फोरम, संगीत, वीडियो आदि प्रकार की वेब जानकारी निकालने का समर्थन करता है, साथ ही ई-बुक प्रारूपों का रूपांतरण भी करता है।
तकनीकी स्तर पर, MinerU का PDF दस्तावेज़ निष्कर्षण प्रक्रिया में PDF दस्तावेज़ वर्गीकरण पूर्व-प्रसंस्करण, मॉडल विश्लेषण, पाइपलाइन प्रसंस्करण और PDF निष्कर्षण परिणाम गुणवत्ता जांच जैसे चरण शामिल हैं। यह उच्च गुणवत्ता वाले दस्तावेज़ डेटा निष्कर्षण को प्राप्त करने के लिए LayoutLMv3, YOLOv8, UniMERNet और PaddleOCR जैसे कई मॉडलों का उपयोग करता है।
MinerU का विमोचन, न केवल AI शोधकर्ताओं को एक शक्तिशाली डेटा प्रोसेसिंग उपकरण प्रदान करता है, बल्कि बड़े मॉडल विकास और अनुप्रयोग के पूरे श्रृंखला उपकरण प्रणाली के उन्नयन को भी आगे बढ़ाता है।
जादुई समुदाय अनुभव लिंक:
https://modelscope.cn/studios/OpenDataLab/MinerU
कोड ओपन-सोर्स लिंक:
https://github.com/opendatalab/MinerU/
MinerU ओपन-सोर्स मॉडल (PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit