Recentemente, a equipe de pesquisa de IA da Alibaba fez avanços notáveis na área de compreensão de documentos, lançando o mPLUG-DocOwl1.5, um modelo de ponta que se destaca em tarefas de compreensão de documentos sem OCR (reconhecimento óptico de caracteres).

image.png

No passado, para lidar com tarefas de compreensão de documentos, geralmente dependíamos da tecnologia OCR para extrair texto de imagens, mas isso era frequentemente afetado por layouts complexos e ruídos visuais. O mPLUG-DocOwl1.5, por outro lado, utiliza uma nova estrutura de aprendizado unificada para aprender e compreender documentos diretamente de imagens, contornando esse gargalo de forma inteligente.

O modelo analisa a capacidade de layout e organização de documentos em diferentes áreas, abrangendo cinco áreas: documentos comuns, tabelas, gráficos, páginas da web e imagens naturais. Ele não apenas identifica texto com precisão, mas também utiliza elementos como espaços e quebras de linha para compreender a estrutura do documento.

image.png

Para tabelas, o modelo pode gerar um formato Markdown estruturado, e ao analisar gráficos, ele converte-os em tabelas de dados compreendendo a relação entre legendas, eixos e valores. Além disso, o mPLUG-DocOwl1.5 também possui a capacidade de extrair texto de imagens naturais.

Em termos de localização de texto, o mPLUG-DocOwl1.5 pode identificar e localizar palavras, frases, linhas e blocos, garantindo um alinhamento preciso entre o texto e as áreas da imagem. Sua arquitetura H-Reducer, por sua vez, usa operações de convolução para mesclar recursos visuais horizontalmente, mantendo o layout espacial e reduzindo o comprimento da sequência, melhorando assim a eficiência do processamento.

Para treinar este modelo, a equipe de pesquisa usou dois conjuntos de dados cuidadosamente selecionados. O DocStruct4M é um conjunto de dados em larga escala focado no aprendizado de estrutura unificada, enquanto o DocReason25K testa a capacidade de raciocínio do modelo por meio de perguntas e respostas passo a passo.

Os resultados mostram que o mPLUG-DocOwl1.5 estabeleceu novos recordes em dez testes de referência, superando modelos semelhantes em mais de 10 pontos em metade das tarefas. Além disso, ele demonstra excelente capacidade de raciocínio linguístico, capaz de gerar explicações detalhadas passo a passo para suas respostas.

Embora o mPLUG-DocOwl1.5 tenha feito progressos significativos em vários aspectos, os pesquisadores também reconhecem que há espaço para melhorias, especialmente no tratamento de declarações inconsistentes ou incorretas. No futuro, a equipe espera expandir ainda mais a estrutura de aprendizado unificada para abranger mais tipos de documentos e tarefas, impulsionando o desenvolvimento da IA ​​de documentos.

Artigo:https://arxiv.org/abs/2403.12895

Código:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

Destaques:

📄 mPLUG-DocOwl1.5 é um modelo de IA que se destaca em tarefas de compreensão de documentos sem OCR.

🔍 O modelo pode analisar o layout de documentos, abrangendo vários tipos de documentos e aprendendo a compreensão diretamente de imagens.

📈 mPLUG-DocOwl1.5 estabeleceu novos recordes em dez testes de referência, demonstrando excelente capacidade de raciocínio linguístico.