Em 11 de março, o Baidu AI anunciou o lançamento em código aberto de sua mais recente solução de reconhecimento de tabelas, PP-TableMagic, representando um grande avanço na extração de informações estruturadas de tabelas. O PP-TableMagic visa solucionar as limitações das tecnologias tradicionais de reconhecimento de tabelas em cenários complexos, alcançando um reconhecimento de tabelas de ponta a ponta de alta precisão por meio de uma inovadora arquitetura de rede de múltiplos modelos, e suportando o ajuste fino de modelos altamente personalizáveis em todos os cenários.
Na era digital atual, uma grande quantidade de dados importantes em tabelas ainda existe em formato não estruturado, como imagens de tabelas estatísticas em documentos digitalizados e dados de relatórios financeiros em arquivos PDF. Esses dados não podem ser processados automaticamente, e a tecnologia de reconhecimento de tabelas se torna crucial para a compreensão inteligente de documentos e análise de dados. No entanto, os modelos tradicionais de reconhecimento de tabelas de uso geral geralmente apresentam desempenho insatisfatório ao lidar com formatos de tabelas complexos, sendo incapazes de atender às necessidades de diferentes cenários de aplicação. Para isso, a equipe do Baidu PaddlePaddle lançou o PP-TableMagic, adotando um esquema de rede em série de múltiplos modelos de "classificação de tabelas + reconhecimento de estrutura de tabelas + detecção de células", melhorando significativamente a precisão e a adaptabilidade do reconhecimento de tabelas.
A principal vantagem do PP-TableMagic reside em seu inovador design de arquitetura. Este esquema utiliza uma arquitetura de fluxo duplo, classificando as tabelas em duas categorias principais: tabelas com linhas e tabelas sem linhas. Em seguida, a tarefa de reconhecimento de tabela de ponta a ponta é decomposta em duas subtarefas: detecção de células e reconhecimento da estrutura da tabela. Por fim, um algoritmo de fusão de resultados de auto-otimização gera o resultado de previsão da tabela HTML completa. Nesse processo, o modelo de classificação de tabelas leve PP-LCNet_x1_0_table_cls, desenvolvido pela equipe do PaddlePaddle, consegue classificar tabelas com e sem linhas com alta precisão; o RT-DETR-L_table_cell_det, o primeiro modelo de detecção de células de tabela de código aberto do setor, consegue localizar com precisão células de tabelas de vários tipos; e o mais recente modelo de reconhecimento de estrutura de tabela SLANeXt apresenta excelente desempenho na análise de estrutura HTML de tabelas. Comparado aos modelos anteriores SLANet e SLANet_plus, o SLANeXt utiliza o Vary-ViT-B, um codificador visual com capacidade de representação de recursos mais robusta, melhorando ainda mais a precisão do reconhecimento da estrutura da tabela.
Em aplicações práticas, o PP-TableMagic não apenas consegue processar tabelas diretamente, mas também pode atender às necessidades de diferentes cenários por meio do ajuste fino personalizado do modelo. Comparado ao ajuste fino dos modelos tradicionais de reconhecimento de tabelas de ponta a ponta, a arquitetura de rede de múltiplos modelos do PP-TableMagic permite que os usuários ajustem finamente apenas os modelos principais, evitando problemas de desempenho de "compensação", e reduzindo a quantidade de trabalho de rotulagem de dados. Além disso, para desenvolvedores experientes, a arquitetura do PP-TableMagic também suporta ajustes de nível de ramificação, permitindo otimizações para dados de tabelas de tipos específicos, melhorando ainda mais a capacidade de reconhecimento geral.
Para ajudar os usuários a começar rapidamente, o PP-TableMagic oferece um guia de instalação e tutoriais de uso detalhados. Os usuários podem facilmente chamar o modelo por meio da API Python fornecida pelo PaddleX para realizar o reconhecimento de tabelas e a exportação de resultados. Além disso, o PP-TableMagic também suporta inferência de alto desempenho, implantação como serviço e implantação em dispositivos finais, atendendo às necessidades de diferentes usuários. A equipe do Baidu PaddlePaddle também planeja realizar uma aula online em 13 de março para analisar em profundidade os detalhes técnicos do PP-TableMagic e lançar um acampamento prático de cenários industriais para orientar os usuários na experiência do fluxo de desenvolvimento completo, desde a preparação de dados até a implantação do modelo.
Endereço do código aberto: https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md