Auf dem WAIC-Wissenschaftsforum 2024 stellte das OpenDataLab-Team des Shanghai AI Lab ein neues intelligentes Datenextraktionswerkzeug namens MinerU vor. Dieses Werkzeug soll die Verarbeitung von AI-Daten vereinfachen und AI-Forschern helfen, qualitativ hochwertige Daten aus großen Datenmengen zu extrahieren.
MinerU ist ein universelles, Open-Source-Tool zur Extraktion von Daten aus Dokumenten und Webseiten. Es konvertiert multimodal PDF-Dokumente, einschließlich Bildern, Tabellen und Formeln, in ein übersichtliches, leicht analysierbares Markdown-Format. Es kann auch schnell relevante Inhalte aus Webseiten mit störenden Elementen wie Werbung extrahieren und unterstützt die Batch-Konvertierung verschiedener Formate wie epub, mobi und docx in Markdown.
MinerU besteht aus zwei Hauptteilen: Magic-PDF und Magic-Doc. Magic-PDF konzentriert sich auf die Extraktion von Daten aus PDF-Dokumenten und konvertiert diese in Markdown. Es erkennt schnell Layoutelemente in PDFs, entfernt automatisch nicht-textuelle Inhalte und behält dabei die Struktur und das Format des Originaldokuments bei. Magic-Doc hingegen ist für die Extraktion von Daten aus Webseiten und E-Books zuständig und unterstützt die Extraktion von Informationen aus gängigen Webseiten wie Artikeln, Foren, Musik- und Videoplattformen sowie die Konvertierung von E-Book-Formaten.
Auf technischer Ebene umfasst die PDF-Extraktion in MinerU die Schritte Vorverarbeitung der PDF-Dokumentenklassifizierung, Modellanalyse, Pipeline-Verarbeitung und Qualitätsprüfung der PDF-Extraktionsergebnisse. Es nutzt eine Reihe von Modellen wie LayoutLMv3, YOLOv8, UniMERNet und PaddleOCR, um eine qualitativ hochwertige Extraktion von Dokumentendaten zu gewährleisten.
Die Veröffentlichung von MinerU bietet AI-Forschern nicht nur ein leistungsstarkes Werkzeug zur Datenverarbeitung, sondern fördert auch die Weiterentwicklung des gesamten Werkzeugsystems für die Entwicklung und Anwendung großer Modelle.
Link zur Nutzung in der MoDa-Community:
https://modelscope.cn/studios/OpenDataLab/MinerU
Link zum Open-Source-Code:
https://github.com/opendatalab/MinerU/
MinerU Open-Source-Modell (PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit