在2024年WAIC科学前沿主论坛上,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队发布了一款名为MinerU的全新智能数据提取工具。这款工具旨在简化AI数据处理流程,帮助AI研究者从海量文档中提取高质量数据。
MinerU是一款全能、开源的文档与网页数据提取工具,能够将包含图片、表格、公式等在内的多模态PDF文档转化为清晰、易于分析的Markdown格式。它还能从包含广告等干扰信息的网页中快速解析、抽取正式内容,并支持epub、mobi、docx等多种格式批量转化为Markdown。
MinerU由两个主要部分组成:Magic-PDF和Magic-Doc。Magic-PDF专注于PDF文档提取,将PDF转化为Markdown格式,能够快速识别PDF版面元素,自动删除非正文内容,保留原文档的结构和格式。Magic-Doc则负责网页与电子书提取,支持常见的文章、论坛、音乐、视频等类型网页信息提取,以及电子书格式的转换。
技术层面上,MinerU的PDF文档提取过程包括PDF文档分类预处理、模型解析、管线处理和PDF提取结果质检等环节。它利用了一系列模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,来实现高质量的文档数据提取。
MinerU的发布,不仅为AI研究者提供了一个强大的数据处理工具,也进一步推动了大模型研发与应用的全链条工具体系的升级。
魔搭社区体验链接:
https://modelscope.cn/studios/OpenDataLab/MinerU
代码开源链接:
https://github.com/opendatalab/MinerU/
MinerU开源模型(PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit