हाल ही में, एक ओपन-सोर्स प्रोजेक्ट जिसका नाम gptpdf है, ने github पर 1.1k स्टार प्राप्त किए हैं। यह PDF फ़ाइलों को解析 करने और उन्हें Markdown प्रारूप में बदलने के लिए GPT-4o के समान VLLM मॉडल का उपयोग करता है।

image.png

gptpdf उत्पाद प्रवेश द्वार:https://top.aibase.com/tool/gptpdf

जानकारी के अनुसार, इस प्रोजेक्ट का कोड केवल 293 लाइनों का है, लेकिन यह लगभग पूरी तरह से टाइपोग्राफी, गणितीय सूत्रों, तालिकाओं, चित्रों, चार्ट आदि जैसी विभिन्न सामग्री को解析 कर सकता है।

image.png

 gptpdf  को लागू करने के चरण हैं:

1) PyMuPDF लाइब्रेरी का उपयोग करके, सभी गैर-टेक्स्ट क्षेत्र解析 करें और उन्हें चिह्नित करें (टोकन बचाने के लिए)

2)解析 के लिए मल्टी-मोडल मॉडल (जैसे GPT-4o) का उपयोग करें, और Markdown फ़ाइल प्राप्त करें

यह उल्लेखनीय है कि gptpdf की लागत प्रति पृष्ठ औसतन 0.013 डॉलर है।

मुख्य बिंदु:

- यह ओपन-सोर्स प्रोजेक्ट PDF फ़ाइलों को解析 करने और उन्हें Markdown प्रारूप में बदलने के लिए GPT-4o के समान मल्टी-मोडल मॉडल का उपयोग करता है।

- प्रोजेक्ट का कोड सरल और प्रभावी है, केवल 293 लाइनों का है।

-解析 परिणाम लगभग पूरी तरह से टाइपोग्राफी, गणितीय सूत्रों, तालिकाओं, चित्रों, चार्ट आदि जैसी विभिन्न सामग्री को शामिल करता है।