En el Foro Principal de Ciencia WAIC 2024, el equipo de OpenDataLab, base de datos de modelos grandes del Laboratorio de IA de Shanghai (Laboratorio de IA de Shanghai), lanzó una nueva herramienta inteligente de extracción de datos llamada MinerU. Esta herramienta está diseñada para simplificar el proceso de manejo de datos de IA y ayudar a los investigadores de IA a extraer datos de alta calidad de una gran cantidad de documentos.
MinerU es una herramienta de extracción de datos de documentos y páginas web completa y de código abierto, capaz de convertir documentos PDF multimodales que incluyen imágenes, tablas y fórmulas en un formato Markdown claro y fácil de analizar. También puede analizar y extraer rápidamente el contenido formal de páginas web que contienen información perturbadora como anuncios, y admite la conversión por lotes de varios formatos como epub, mobi y docx a Markdown.
MinerU consta de dos partes principales: Magic-PDF y Magic-Doc. Magic-PDF se centra en la extracción de documentos PDF, convirtiendo PDF a formato Markdown, pudiendo identificar rápidamente los elementos de diseño de PDF, eliminando automáticamente el contenido que no es del cuerpo del texto y conservando la estructura y el formato del documento original. Magic-Doc se encarga de la extracción de páginas web y libros electrónicos, admite la extracción de información de páginas web de tipos comunes como artículos, foros, música y vídeo, así como la conversión de formatos de libros electrónicos.
A nivel técnico, el proceso de extracción de documentos PDF de MinerU incluye el preprocesamiento de clasificación de documentos PDF, el análisis del modelo, el procesamiento de la canalización y la inspección de calidad de los resultados de extracción de PDF. Utiliza una serie de modelos, como LayoutLMv3, YOLOv8, UniMERNet y PaddleOCR, para lograr una extracción de datos de documentos de alta calidad.
El lanzamiento de MinerU no solo proporciona a los investigadores de IA una potente herramienta de procesamiento de datos, sino que también impulsa la actualización del sistema de herramientas de cadena completa para el desarrollo y la aplicación de modelos grandes.
Enlace de experiencia en la comunidad MoDA:
https://modelscope.cn/studios/OpenDataLab/MinerU
Enlace de código abierto:
https://github.com/opendatalab/MinerU/
Modelo abierto MinerU (PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit