2024年のWAIC科学最前線フォーラムにおいて、上海人工知能研究所(上海AI研究所)の大規模モデルデータ基盤OpenDataLabチームは、MinerUという新しいインテリジェントデータ抽出ツールを発表しました。このツールはAIデータ処理プロセスを簡素化し、AI研究者が大量の文書から高品質なデータを抽出するのを支援することを目的としています。
MinerUは、多機能でオープンソースの文書およびウェブデータ抽出ツールであり、画像、表、数式などを含む多様な形式のPDF文書を、分析しやすい明確なMarkdown形式に変換できます。また、広告などの邪魔な情報を含むウェブサイトから正式なコンテンツを迅速に解析・抽出することができ、epub、mobi、docxなどの複数の形式を一括でMarkdownに変換することもできます。
MinerUは、Magic-PDFとMagic-Docの2つの主要な部分で構成されています。Magic-PDFはPDF文書の抽出に特化しており、PDFをMarkdown形式に変換し、PDFのレイアウト要素を迅速に認識し、本文以外のコンテンツを自動的に削除し、元の文書の構造と形式を保持します。Magic-Docは、ウェブサイトと電子書籍の抽出を担当し、一般的な記事、フォーラム、音楽、ビデオなどのタイプのウェブサイト情報の抽出、および電子書籍形式の変換をサポートします。
技術的な面では、MinerUのPDF文書抽出プロセスには、PDF文書の分類前処理、モデル解析、パイプライン処理、およびPDF抽出結果の品質検査などの段階が含まれます。高品質の文書データ抽出を実現するために、LayoutLMv3、YOLOv8、UniMERNet、PaddleOCRなどのさまざまなモデルを使用しています。
MinerUの発表は、AI研究者に強力なデータ処理ツールを提供するだけでなく、大規模モデルの研究開発と応用の全チェーンツールシステムのアップグレードをさらに推進します。
魔搭コミュニティ体験リンク:
https://modelscope.cn/studios/OpenDataLab/MinerU
コードオープンソースリンク:
https://github.com/opendatalab/MinerU/
MinerUオープンソースモデル(PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit