MinerU est un outil open source dédié à la conversion de fichiers PDF en formats lisibles par machine, tels que Markdown et JSON, facilitant ainsi l'extraction et le traitement ultérieur du contenu. Il résout les problèmes de conversion de symboles dans les documents scientifiques, prend en charge plusieurs formats de sortie et est compatible avec divers systèmes d'exploitation. Les principaux avantages de MinerU incluent la suppression des en-têtes, pieds de page et notes de bas de page, le maintien de la structure originale du document, la reconnaissance et la conversion automatiques des formules et des tableaux, la prise en charge de la fonction OCR et la détection et la reconnaissance de plus de 84 langues.