Lors du forum principal sur les avancées scientifiques de la WAIC 2024, l'équipe OpenDataLab du laboratoire d'intelligence artificielle de Shanghai (Shanghai AI Lab) a lancé MinerU, un nouvel outil intelligent d'extraction de données. Cet outil vise à simplifier le processus de traitement des données d'IA et à aider les chercheurs en IA à extraire des données de haute qualité à partir d'un grand nombre de documents.

MinerU est un outil d'extraction de données de documents et de pages Web polyvalent et open source. Il peut convertir des documents PDF multimodaux contenant des images, des tableaux et des formules en format Markdown clair et facile à analyser. Il peut également analyser et extraire rapidement le contenu principal des pages Web contenant des publicités et autres éléments perturbateurs, et prend en charge la conversion par lots de plusieurs formats, tels que epub, mobi et docx, en Markdown.

微信截图_20240903140350.png

MinerU se compose de deux parties principales : Magic-PDF et Magic-Doc. Magic-PDF se concentre sur l'extraction de documents PDF, convertissant les PDF au format Markdown. Il peut identifier rapidement les éléments de mise en page des PDF, supprimer automatiquement le contenu non textuel et préserver la structure et le format du document d'origine. Magic-Doc est responsable de l'extraction des pages Web et des livres électroniques, prenant en charge l'extraction d'informations de pages Web courantes telles que les articles, les forums, la musique et les vidéos, ainsi que la conversion de formats de livres électroniques.

Sur le plan technique, le processus d'extraction de documents PDF de MinerU comprend le prétraitement de la classification des documents PDF, l'analyse du modèle, le traitement par pipeline et le contrôle qualité des résultats d'extraction PDF. Il utilise une série de modèles, tels que LayoutLMv3, YOLOv8, UniMERNet et PaddleOCR, pour réaliser une extraction de données de documents de haute qualité.

Le lancement de MinerU fournit non seulement aux chercheurs en IA un outil puissant de traitement des données, mais contribue également à la mise à niveau du système d'outils complet de recherche et développement et d'application des grands modèles.

Lien d'expérience de la communauté MoDa :

https://modelscope.cn/studios/OpenDataLab/MinerU

Lien du code source :

https://github.com/opendatalab/MinerU/

Modèle open source MinerU (PDF-Extract-Kit) :

https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit