हाल ही में, एक ओपन-सोर्स प्रोजेक्ट जिसका नाम gptpdf है, ने github पर 1.1k स्टार प्राप्त किए हैं। यह PDF फ़ाइलों को解析 करने और उन्हें Markdown प्रारूप में बदलने के लिए GPT-4o के समान VLLM मॉडल का उपयोग करता है।
gptpdf उत्पाद प्रवेश द्वार:https://top.aibase.com/tool/gptpdf
जानकारी के अनुसार, इस प्रोजेक्ट का कोड केवल 293 लाइनों का है, लेकिन यह लगभग पूरी तरह से टाइपोग्राफी, गणितीय सूत्रों, तालिकाओं, चित्रों, चार्ट आदि जैसी विभिन्न सामग्री को解析 कर सकता है।
gptpdf को लागू करने के चरण हैं:
1) PyMuPDF लाइब्रेरी का उपयोग करके, सभी गैर-टेक्स्ट क्षेत्र解析 करें और उन्हें चिह्नित करें (टोकन बचाने के लिए)
2)解析 के लिए मल्टी-मोडल मॉडल (जैसे GPT-4o) का उपयोग करें, और Markdown फ़ाइल प्राप्त करें
यह उल्लेखनीय है कि gptpdf की लागत प्रति पृष्ठ औसतन 0.013 डॉलर है।
मुख्य बिंदु:
- यह ओपन-सोर्स प्रोजेक्ट PDF फ़ाइलों को解析 करने और उन्हें Markdown प्रारूप में बदलने के लिए GPT-4o के समान मल्टी-मोडल मॉडल का उपयोग करता है।
- प्रोजेक्ट का कोड सरल और प्रभावी है, केवल 293 लाइनों का है।
-解析 परिणाम लगभग पूरी तरह से टाइपोग्राफी, गणितीय सूत्रों, तालिकाओं, चित्रों, चार्ट आदि जैसी विभिन्न सामग्री को शामिल करता है।