Recentemente, um projeto open source chamado gptpdf explodiu no GitHub, alcançando mais de 1,1 mil estrelas. Ele utiliza um modelo VLLM semelhante ao GPT-4o para analisar arquivos PDF e convertê-los para o formato Markdown.
Acesso ao produto gptpdf:https://top.aibase.com/tool/gptpdf
De acordo com informações disponíveis, o código do projeto tem apenas 293 linhas, mas consegue analisar quase perfeitamente a formatação, fórmulas matemáticas, tabelas, imagens, gráficos e outros tipos de conteúdo.
As etapas de implementação do gptpdf são:
1) Usando a biblioteca PyMuPDF, analisa todas as áreas não textuais e as marca (para economizar tokens)
2) Usa um modelo multimodal (como o GPT-4o) para análise, obtendo um arquivo markdown
Vale ressaltar que o custo do gptpdf é de US$ 0,013 por página em média.
Destaques:
- Este projeto open source usa um modelo multimodal semelhante ao GPT-4o para analisar arquivos PDF e convertê-los para o formato Markdown.
- O código do projeto é conciso e eficiente, com apenas 293 linhas.
- O resultado da análise inclui quase perfeitamente a formatação, fórmulas matemáticas, tabelas, imagens, gráficos e outros tipos de conteúdo.