Recentemente, um projeto open source chamado gptpdf explodiu no GitHub, alcançando mais de 1,1 mil estrelas. Ele utiliza um modelo VLLM semelhante ao GPT-4o para analisar arquivos PDF e convertê-los para o formato Markdown.

image.png

Acesso ao produto gptpdf:https://top.aibase.com/tool/gptpdf

De acordo com informações disponíveis, o código do projeto tem apenas 293 linhas, mas consegue analisar quase perfeitamente a formatação, fórmulas matemáticas, tabelas, imagens, gráficos e outros tipos de conteúdo.

image.png

 As etapas de implementação do gptpdf são:

1) Usando a biblioteca PyMuPDF, analisa todas as áreas não textuais e as marca (para economizar tokens)

2) Usa um modelo multimodal (como o GPT-4o) para análise, obtendo um arquivo markdown

Vale ressaltar que o custo do gptpdf é de US$ 0,013 por página em média.

Destaques:

- Este projeto open source usa um modelo multimodal semelhante ao GPT-4o para analisar arquivos PDF e convertê-los para o formato Markdown.

- O código do projeto é conciso e eficiente, com apenas 293 linhas.

- O resultado da análise inclui quase perfeitamente a formatação, fórmulas matemáticas, tabelas, imagens, gráficos e outros tipos de conteúdo.