Am 11. März gab Baidu AI die Open-Source-Veröffentlichung seiner neuesten Tabellen-Erkennungslösung PP-TableMagic bekannt, die einen bedeutenden Durchbruch im Bereich der strukturierten Informationsextraktion aus Tabellen darstellt. PP-TableMagic zielt darauf ab, die Einschränkungen herkömmlicher Tabellen-Erkennungstechnologien in komplexen Szenarien zu überwinden. Durch eine innovative Architektur mit mehreren miteinander verbundenen Modellen erreicht es eine hochpräzise End-to-End-Tabellen-Erkennung und unterstützt eine umfassende, anwendungsspezifische Modellfeinabstimmung.

Im heutigen digitalen Zeitalter existieren viele wichtige Tabellendaten immer noch in unstrukturierter Form, z. B. als Bilder von Tabellen in gescannten Dokumenten oder als Finanzberichte in PDF-Dateien. Diese Daten können nicht direkt automatisiert verarbeitet werden, daher ist die Tabellen-Erkennungstechnologie der Schlüssel zum intelligenten Verständnis von Dokumenten und zur Datenanalyse. Herkömmliche universelle Tabellen-Erkennungsmodelle schneiden jedoch bei komplexen Tabellenformaten oft schlecht ab und erfüllen die Anforderungen verschiedener Anwendungsszenarien nicht. Aus diesem Grund hat das Baidu PaddlePaddle-Team PP-TableMagic entwickelt, das ein mehrstufiges Netzwerk aus „Tabellenklassifizierung + Tabellenstruktur-Erkennung + Zellen-Detektion“ verwendet, um die Genauigkeit und Anpassungsfähigkeit der Tabellen-Erkennung deutlich zu verbessern.

微信截图_20250312082522.png

Der Kernvorteil von PP-TableMagic liegt in seinem innovativen Architekturdesign. Das System verwendet eine Zwei-Stream-Architektur, die Tabellen in Tabellen mit Linien und Tabellen ohne Linien unterteilt. Die End-to-End-Tabellen-Erkennungsaufgabe wird in die beiden Unteraufgaben Zellen-Detektion und Tabellenstruktur-Erkennung aufgeteilt. Schließlich wird durch einen selbstoptimierenden Ergebnisfusionsalgorithmus das vollständige HTML-Tabellen-Vorhersgeergebnis generiert. Dabei ermöglicht das vom PaddlePaddle-Team selbst entwickelte leichtgewichtige Tabellenklassifizierungsmodell PP-LCNet_x1_0_table_cls eine hochpräzise Klassifizierung von Tabellen mit und ohne Linien. Das branchenweit erste Open-Source-Modell zur Erkennung von Tabellen-Zellen, RT-DETR-L_table_cell_det, ermöglicht eine präzise Lokalisierung von Zellen verschiedener Typen. Das neue Tabellenstruktur-Erkennungsmodell SLANeXt zeichnet sich durch seine hervorragende Leistung bei der HTML-Strukturanalyse von Tabellen aus. Im Vergleich zu den Vorgängermodellen SLANet und SLANet_plus verwendet SLANeXt Vary-ViT-B als visuellen Encoder mit stärkerer Merkmalsrepräsentationsfähigkeit, wodurch die Genauigkeit der Tabellenstruktur-Erkennung weiter verbessert wird.

In der Praxis kann PP-TableMagic nicht nur Tabellen direkt verarbeiten, sondern auch durch eine kundenspezifische Modellfeinabstimmung an verschiedene Szenarien angepasst werden. Im Vergleich zur Feinabstimmung herkömmlicher End-to-End-Tabellen-Erkennungsmodelle ermöglicht die Architektur mit mehreren miteinander verbundenen Modellen von PP-TableMagic die Feinabstimmung nur der wichtigsten Modelle, wodurch Leistungseinbußen vermieden und der Aufwand für die Datenannotation reduziert wird. Für erfahrene Entwickler unterstützt die Architektur von PP-TableMagic auch Anpassungen auf Zweig-Ebene, um die Optimierung für bestimmte Arten von Tabellendaten zu ermöglichen und die Gesamterkennungsleistung weiter zu verbessern.

Um Nutzern den Einstieg zu erleichtern, bietet PP-TableMagic eine detaillierte Installationsanleitung und ein Benutzerhandbuch. Benutzer können das Modell über die von PaddleX bereitgestellte Python-API einfach aufrufen, um Tabellen zu erkennen und Ergebnisse zu exportieren. Darüber hinaus unterstützt PP-TableMagic Hochleistungs-Inferenz, servicebasierte Bereitstellung und Bereitstellung auf Endgeräten, um die Anforderungen verschiedener Benutzer zu erfüllen. Das Baidu PaddlePaddle-Team plant außerdem, am 13. März einen Online-Kurs abzuhalten, der die technischen Details von PP-TableMagic eingehend erläutert, und einen Workshop zu industriellen Anwendungsszenarien anzubieten, der Benutzer durch den gesamten Entwicklungsprozess von der Datenvorbereitung bis zur Modellbereitstellung führt.

Open-Source-Adresse: https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md