近日,一款名为gptpdf的开源项目名在github赞火了1.1k星星,它使用了类似 GPT-4o 的 VLLM 模型来解析 PDF 文件并将其转换为 Markdown 格式。

image.png

gptpdf产品入口:https://top.aibase.com/tool/gptpdf

据了解,该项目的代码只有293行,但几乎可以完美地解析排版、数学公式、表格、图片、图表等各种内容。

image.png

 gptpdf 实现步骤是:

1)使用PyMuPDF库,解析出所有非文本区域,并做好标记(用于省token)

2)使用多模态模型(如 GPT-4o)进行解析,得到markdown文件

值得一提的是,gptpdf的费用是每页平均成本为0.013美元。

划重点:

- 这个开源项目使用类似 GPT-4o 多模态模型解析 PDF 文件,将其转换为 Markdown 格式。

- 项目代码简洁高效,只有293行。

- 解析结果几乎完美地包括了排版、数学公式、表格、图片、图表等各种内容。