アリババの達摩院と中国人民大学は最近、OCR認識なしで文書内容を理解できることを目指した、mPLUG-DocOwl1.5という文書処理モデルを共同でオープンソース化しました。このモデルは、複数のビジュアル文書理解ベンチマークテストでトップレベルの性能を達成しています。

構造情報は、リッチテキスト画像(文書、表、グラフなど)のセマンティクスを理解する上で非常に重要です。既存のマルチモーダル大規模言語モデル(MLLM)はテキスト認識機能を備えているものの、リッチテキスト文書画像に対する一般的な構造理解能力が不足しています。この問題を解決するために、mPLUG-DocOwl1.5はビジュアル文書理解における構造情報の重要性を強調し、「統一構造学習」というアプローチでMLLMの性能向上を目指しています。

1.png

このモデルの「統一構造学習」は、文書、ウェブページ、表、グラフ、自然画像の5つの領域を網羅しており、構造認識解析タスクと多粒度テキスト位置特定タスクが含まれています。構造情報をより効果的にエンコードするために、研究者たちはシンプルで効率的なビジュアルからテキストへのモジュールであるH-Reducerを設計しました。これはレイアウト情報を保持するだけでなく、畳み込みによって水平方向に隣接する画像ブロックをマージすることで、ビジュアル特徴の長さを削減し、大規模言語モデルが高解像度画像をより効率的に理解できるようにします。

2.png

さらに、構造学習を支援するために、研究チームは公開されているデータセットに基づいて、構造認識テキストシーケンスと多粒度テキスト境界ボックスペアを含む400万サンプルの包括的なトレーニングセットDocStruct4Mを作成しました。また、MLLMの文書分野における推論能力をさらに向上させるために、2万5千の高品質サンプルを含む推論ファインチューニングデータセットDocReason25Kも構築しました。

mPLUG-DocOwl1.5は二段階のトレーニングフレームワークを採用しており、まず統一構造学習を行い、次に複数のダウンストリームタスクでマルチタスクファインチューニングを行います。このトレーニング方法により、mPLUG-DocOwl1.5は10個のビジュアル文書理解ベンチマークテストですべて最先端の性能を達成し、5個のベンチマークテストでは7B LLMのSOTA性能を10%以上向上させました。

現在、mPLUG-DocOwl1.5のコード、モデル、データセットはGitHubで公開されています。

プロジェクトアドレス:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

論文アドレス:https://arxiv.org/pdf/2403.12895