No Fórum de Fronteiras Científicas da WAIC de 2024, a equipe OpenDataLab, da base de dados de modelos grandes do Laboratório de Inteligência Artificial de Xangai (Laboratório de IA de Xangai), lançou uma nova ferramenta inteligente de extração de dados chamada MinerU. Esta ferramenta visa simplificar o processo de tratamento de dados de IA, ajudando os pesquisadores de IA a extrair dados de alta qualidade de uma grande quantidade de documentos.
MinerU é uma ferramenta de extração de dados de documentos e web completa e de código aberto, capaz de converter documentos PDF multimodais, incluindo imagens, tabelas e fórmulas, em um formato Markdown claro e fácil de analisar. Também pode analisar e extrair rapidamente o conteúdo formal de páginas da web que contêm informações perturbadoras, como anúncios, e suporta a conversão em massa de vários formatos, como epub, mobi e docx, para Markdown.
MinerU consiste em duas partes principais: Magic-PDF e Magic-Doc. O Magic-PDF concentra-se na extração de documentos PDF, convertendo PDFs em formato Markdown, podendo identificar rapidamente os elementos de layout do PDF, remover automaticamente o conteúdo que não seja o texto principal e manter a estrutura e o formato do documento original. O Magic-Doc é responsável pela extração de páginas da web e livros eletrônicos, suportando a extração de informações de páginas da web comuns, como artigos, fóruns, música e vídeo, e a conversão de formatos de livros eletrônicos.
Do ponto de vista técnico, o processo de extração de documentos PDF do MinerU inclui pré-processamento de classificação de documentos PDF, análise de modelos, processamento de pipeline e inspeção de qualidade dos resultados de extração de PDF. Ele utiliza uma série de modelos, como LayoutLMv3, YOLOv8, UniMERNet e PaddleOCR, para realizar a extração de dados de documentos de alta qualidade.
O lançamento do MinerU não apenas fornece aos pesquisadores de IA uma poderosa ferramenta de processamento de dados, mas também impulsiona ainda mais a atualização do sistema de ferramentas de cadeia completa de pesquisa e desenvolvimento e aplicação de modelos grandes.
Link de experiência da comunidade MoDa:
https://modelscope.cn/studios/OpenDataLab/MinerU
Link do código aberto:
https://github.com/opendatalab/MinerU/
Modelo de código aberto MinerU (PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit