近日,一款名为gptpdf的开源项目名在github赞火了1.1k星星,它使用了类似 GPT-4o 的 VLLM 模型来解析 PDF 文件并将其转换为 Markdown 格式。
gptpdf产品入口:https://top.aibase.com/tool/gptpdf
据了解,该项目的代码只有293行,但几乎可以完美地解析排版、数学公式、表格、图片、图表等各种内容。
gptpdf 实现步骤是:
1)使用PyMuPDF库,解析出所有非文本区域,并做好标记(用于省token)
2)使用多模态模型(如 GPT-4o)进行解析,得到markdown文件
值得一提的是,gptpdf的费用是每页平均成本为0.013美元。
划重点:
- 这个开源项目使用类似 GPT-4o 多模态模型解析 PDF 文件,将其转换为 Markdown 格式。
- 项目代码简洁高效,只有293行。
- 解析结果几乎完美地包括了排版、数学公式、表格、图片、图表等各种内容。