最近、アリババのAI研究チームは、ドキュメント理解分野で注目すべき進歩を遂げ、OCR(光学文字認識)を使用しないドキュメント理解タスクで卓越した性能を示す最先端モデル、mPLUG-DocOwl1.5を発表しました。

image.png

従来、ドキュメント理解タスクを処理する際には、OCR技術を用いて画像からテキストを抽出することが一般的でしたが、複雑なレイアウトや視覚ノイズの影響を受けやすいという課題がありました。一方、mPLUG-DocOwl1.5は、全く新しい統一構造学習フレームワークにより、画像から直接ドキュメントを理解することを学習し、このボトルネックを見事に回避しています。

このモデルは、様々な分野のドキュメントのレイアウトと構成能力を分析し、一般的なドキュメント、表、グラフ、ウェブページ、自然画像など5つの分野を網羅しています。テキストの正確な認識だけでなく、ドキュメント構造の理解において、スペースや改行などの要素も活用します。

image.png

表については、構造化されたMarkdown形式を生成し、グラフの解析においては、凡例、座標軸、数値間の関係を理解することで、データ表に変換します。さらに、mPLUG-DocOwl1.5は自然画像からテキストを抽出する機能も備えています。

テキストの局在化においては、単語、句、行、ブロックを識別・特定し、テキストと画像領域の正確な位置合わせを確保します。そして、その裏にあるH-Reducerアーキテクチャは、畳み込み演算によって視覚特徴を水平方向に統合し、空間レイアウトを維持しつつシーケンス長を削減することで、処理効率を向上させています。

このモデルのトレーニングには、厳選された2つのデータセットが使用されました。DocStruct4Mは大規模データセットで、統一構造学習に重点を置いており、DocReason25Kは段階的な質問応答を通じてモデルの推論能力をテストします。

その結果、mPLUG-DocOwl1.5は10個のベンチマークテストで新記録を樹立し、同等のモデルと比較して、半数のタスクで10ポイント以上の向上を示しました。さらに、優れた言語推論能力を示し、その回答に対して詳細な段階的な説明を生成することができます。

mPLUG-DocOwl1.5は多くの点で顕著な進歩を遂げていますが、研究者たちは、特に矛盾した記述や誤った記述の処理において、モデルに改善の余地があることを認識しています。今後、チームは統一構造学習フレームワークの更なる拡張を目指し、より多くのドキュメントの種類とタスクを網羅することで、ドキュメントAIの更なる発展を推進したいと考えています。

論文:https://arxiv.org/abs/2403.12895

コード:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

要点:

📄 mPLUG-DocOwl1.5は、OCR不要のドキュメント理解タスクにおいて卓越した性能を示すAIモデルです。

🔍 このモデルはドキュメントのレイアウトを分析し、様々なドキュメントの種類を網羅し、画像から直接理解することを学習します。

📈 mPLUG-DocOwl1.5は10個のベンチマークテストで新記録を樹立し、優れた言語推論能力を示しました。