El 11 de marzo, Baidu AI anunció la publicación de código abierto de su nueva solución de reconocimiento de tablas PP-TableMagic, un gran avance en la extracción de información estructurada de tablas. PP-TableMagic tiene como objetivo solucionar las limitaciones de las técnicas tradicionales de reconocimiento de tablas en escenarios complejos. A través de una innovadora arquitectura de red de múltiples modelos, logra un reconocimiento de tablas de extremo a extremo de alta precisión y admite el ajuste fino de modelos altamente personalizables para todos los escenarios.
En la era digital actual, una gran cantidad de datos tabulares importantes aún existen en formato no estructurado, como imágenes de tablas estadísticas en documentos escaneados y datos de informes financieros en archivos PDF. Estos datos no se pueden procesar automáticamente de forma directa, y la tecnología de reconocimiento de tablas se convierte en clave para la comprensión inteligente de documentos y el análisis de datos. Sin embargo, los modelos tradicionales de reconocimiento de tablas de uso general a menudo presentan un rendimiento deficiente al enfrentarse a formatos de tablas complejos, lo que dificulta satisfacer las necesidades de diferentes aplicaciones. Para ello, el equipo de Baidu PaddlePaddle ha lanzado PP-TableMagic, que emplea un esquema de red en serie de múltiples modelos ("clasificación de tablas + reconocimiento de estructura de tablas + detección de celdas"), lo que mejora significativamente la precisión y la adaptabilidad del reconocimiento de tablas.
La principal ventaja de PP-TableMagic radica en su innovador diseño de arquitectura. Este esquema utiliza una arquitectura de doble flujo, clasificando las tablas en dos grandes categorías: tablas con líneas y tablas sin líneas. Luego, divide la tarea de reconocimiento de tablas de extremo a extremo en dos subtareas: detección de celdas y reconocimiento de la estructura de la tabla. Finalmente, genera resultados de predicción de tablas HTML completas mediante un algoritmo de fusión de resultados de autooptimización. En este proceso, el modelo de clasificación de tablas ligero PP-LCNet_x1_0_table_cls, desarrollado por el equipo de PaddlePaddle, puede clasificar con alta precisión las tablas con y sin líneas; el primer modelo de detección de celdas de tablas de código abierto de la industria, RT-DETR-L_table_cell_det, logra una localización precisa de las celdas de tablas de varios tipos; y el nuevo modelo de reconocimiento de estructura de tablas SLANeXt destaca en el análisis de la estructura HTML de las tablas. En comparación con los modelos anteriores SLANet y SLANet_plus, SLANeXt utiliza Vary-ViT-B, un codificador visual con una capacidad de representación de características más potente, mejorando aún más la precisión del reconocimiento de la estructura de la tabla.
En aplicaciones reales, PP-TableMagic no solo puede procesar tablas directamente, sino que también puede satisfacer las necesidades de diferentes escenarios mediante el ajuste fino personalizado del modelo. En comparación con el ajuste fino de los modelos tradicionales de reconocimiento de tablas de extremo a extremo, la arquitectura de red de múltiples modelos de PP-TableMagic permite a los usuarios ajustar finamente solo los modelos clave, evitando así problemas de rendimiento de "pérdida y ganancia" y reduciendo la cantidad de trabajo de etiquetado de datos. Además, para los desarrolladores experimentados, la arquitectura de PP-TableMagic también admite ajustes a nivel de rama, lo que permite optimizar datos de tablas de tipos específicos y mejorar aún más la capacidad de reconocimiento general.
Para ayudar a los usuarios a comenzar rápidamente, PP-TableMagic proporciona una guía de instalación y tutoriales de uso detallados. Los usuarios pueden utilizar fácilmente la API de Python proporcionada por PaddleX para llamar al modelo, realizar el reconocimiento de tablas y exportar los resultados. Además, PP-TableMagic también admite inferencia de alto rendimiento, implementación como servicio e implementación en dispositivos finales, para satisfacer las necesidades de diferentes usuarios. El equipo de Baidu PaddlePaddle también planea organizar un curso en línea el 13 de marzo para analizar en profundidad los detalles técnicos de PP-TableMagic y ofrecer un campamento práctico de escenarios industriales para guiar a los usuarios a través del proceso de desarrollo completo, desde la preparación de datos hasta la implementación del modelo.
Dirección del código abierto: https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md