3月11日、百度AIは、新たな表認識ソリューションPP-TableMagicをオープンソースとして公開し、表構造化情報抽出分野に大きな進歩をもたらしました。PP-TableMagicは、従来の表認識技術が複雑な状況下で抱える限界を克服することを目指し、革新的なマルチモデルネットワークアーキテクチャにより、高精度のエンドツーエンドの表認識を実現し、あらゆる状況に対応できる高度なカスタマイズ可能なモデル微調整をサポートします。

今日のデジタル時代において、大量の重要な表データは、スキャンした文書内の統計表画像やPDFファイル内の金融財務報告書データなど、非構造化形式で存在しています。これらのデータは、直接自動処理することができません。そのため、表認識技術は、ドキュメントのインテリジェントな理解とデータ分析において不可欠となっています。しかし、従来の汎用的な表認識モデルは、複雑な表形式に直面すると性能が低下し、さまざまなアプリケーションシナリオのニーズを満たすことが困難でした。そこで、百度飛槳チームはPP-TableMagicを開発しました。「表分類+表構造認識+セル検出」のマルチモデル直列ネットワーク方式を採用することで、表認識の精度と適応性を大幅に向上させています。

微信截图_20250312082522.png

PP-TableMagicの最大の強みは、その革新的なアーキテクチャ設計にあります。このソリューションは、双方向アーキテクチャを採用し、表を線表と無線表の2つのカテゴリに分類し、エンドツーエンドの表認識タスクをセル検出と表構造認識の2つのサブタスクに分割します。最後に、自己最適化結果融合アルゴリズムを使用して、完全なHTML表予測結果を生成します。その中で、飛槳チームが独自開発した軽量の表分類モデルPP-LCNet_x1_0_table_clsは、線表と無線表を高精度で分類できます。業界初のオープンソースの表セル検出モデルRT-DETR-L_table_cell_detは、あらゆる種類の表セルの正確な位置特定を実現します。そして、新たな表構造認識モデルSLANeXtは、表HTML構造の解析において優れた性能を発揮します。SLANetやSLANet_plusなどの前世代モデルと比較して、SLANeXtは、より強力な特徴表現能力を持つVary-ViT-Bをビジュアルエンコーダーとして使用することで、表構造認識の精度をさらに向上させています。

実際のアプリケーションにおいて、PP-TableMagicは表を直接処理できるだけでなく、カスタマイズ可能なモデル微調整によって、さまざまな状況のニーズを満たすことができます。従来のエンドツーエンドの表認識モデルの微調整と比較して、PP-TableMagicのマルチモデルネットワークアーキテクチャにより、ユーザーは重要なモデルのみを微調整できるため、「トレードオフ」による性能の問題を回避し、データアノテーションの作業量も削減できます。さらに、熟練した開発者にとって、PP-TableMagicのアーキテクチャはブランチレベルでの調整をサポートしており、特定の種類の表データに対して最適化を行い、全体的な認識能力をさらに向上させることができます。

ユーザーが迅速に使い始めることができるように、PP-TableMagicは詳細なインストールガイドと使用方法のチュートリアルを提供しています。ユーザーは、PaddleXが提供するPython APIを使用して、モデルを簡単に呼び出して、表認識と結果のエクスポートを行うことができます。さらに、PP-TableMagicは、高性能推論、サービス化デプロイ、エッジデバイスへのデプロイをサポートしており、さまざまなユーザーのニーズに対応できます。百度飛槳チームは、3月13日にオンラインコースを開催し、PP-TableMagicの技術の詳細を深く解説し、産業シナリオ実践キャンプを開催して、ユーザーがデータ準備からモデルデプロイまでの完全な開発プロセスを体験できるようにする予定です。

オープンソースアドレス:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md