ViTLP

दस्तावेज़ बुद्धिमत्ता के दृश्यमान मार्गदर्शन द्वारा पाठ लेआउट पूर्व प्रशिक्षित मॉडल उत्पन्न करना

सामान्य उत्पादउत्पादकताOCRदस्तावेज़ बुद्धिमत्ता

ViTLP एक दृश्यमान मार्गदर्शन द्वारा उत्पन्न पाठ लेआउट पूर्व प्रशिक्षित मॉडल है जिसका उद्देश्य दस्तावेज़ बुद्धिमत्ता प्रसंस्करण की दक्षता और सटीकता में सुधार करना है। यह मॉडल OCR पाठ स्थिति निर्धारण और पहचान कार्यों को जोड़ता है, और दस्तावेज़ छवियों पर तेज़ और सटीक पाठ का पता लगाने और पहचान करने में सक्षम है। सीमित कम्प्यूटिंग संसाधनों और पूर्व प्रशिक्षण डेटासेट के आकार के साथ, ViTLP-medium (380M पैरामीटर) का पूर्व प्रशिक्षित संस्करण एक संतुलित समाधान प्रदान करता है जो मॉडल के प्रदर्शन को सुनिश्चित करता है और साथ ही अनुमान गति और मेमोरी उपयोग को अनुकूलित करता है। Nvidia 4090 पर ViTLP की अनुमान गति आम तौर पर एक पृष्ठ दस्तावेज़ छवि को संसाधित करने में 5 से 10 सेकंड के बीच होती है, जो अधिकांश OCR इंजनों की तुलना में प्रतिस्पर्धी है।

• देशी OCR पाठ स्थिति निर्धारण और पहचान: ViTLP सीधे दस्तावेज़ छवियों पर पाठ की स्थिति निर्धारित और पहचान कर सकता है।
• पूर्व प्रशिक्षित मॉडल ViTLP-medium: एक पूर्व प्रशिक्षित मॉडल प्रदान करता है जिसमें 380M पैरामीटर हैं
जो सीमित कम्प्यूटिंग संसाधनों के साथ अच्छा प्रदर्शन प्रदान कर सकता है।
• तेज अनुमान गति: Nvidia 4090 पर
ViTLP दस्तावेज़ छवियों को तेज़ी से संसाधित कर सकता है
एक पृष्ठ दस्तावेज़ छवि के प्रसंस्करण को 5 से 10 सेकंड के भीतर पूरा कर सकता है।
• Huggingface प्लेटफ़ॉर्म समर्थन: ViTLP मॉडल के पूर्व प्रशिक्षित वज़न Huggingface प्लेटफ़ॉर्म पर पाए जा सकते हैं
जिससे उपयोगकर्ता आसानी से डाउनलोड और उपयोग कर सकते हैं।
• एकीकरण और उपयोग में आसानी: प्रदान किए गए कोड और निर्देशों के माध्यम से
उपयोगकर्ता आसानी से अपने प्रोजेक्ट में ViTLP को एकीकृत कर सकते हैं।

लक्षित दर्शक उन कंपनियों और शोध संस्थानों के लिए हैं जिन्हें दस्तावेज़ छवि प्रसंस्करण करने की आवश्यकता है
खासकर स्वचालित दस्तावेज़ प्रसंस्करण और अभिलेखागार डिजिटलीकरण के क्षेत्र में। ViTLP की तेज अनुमान गति और उच्च सटीकता इसे इन परिदृश्यों के लिए एक आदर्श विकल्प बनाती है।

उदाहरण 1: ऐतिहासिक साहित्य को डिजिटलीकृत करने और साहित्य से पाठ जानकारी को स्वचालित रूप से निकालने के लिए ViTLP का उपयोग करना।
उदाहरण 2: कानूनी क्षेत्र में
बड़ी संख्या में मामले दस्तावेज़ों के स्वचालित प्रसंस्करण और सूचना निष्कर्षण के लिए ViTLP का उपयोग करना।
उदाहरण 3: वित्तीय क्षेत्र में
अनुबंध दस्तावेज़ों का बुद्धिमान विश्लेषण करने और महत्वपूर्ण खंडों को निकालने के लिए ViTLP का उपयोग करना।

1. ViTLP के GitHub पृष्ठ पर जाएँ और प्रोजेक्ट को स्थानीय रूप से क्लोन करें।
2. आवश्यक निर्भरताओं को स्थापित करें
`pip install -r requirements.txt` चलाएँ।
3. पूर्व प्रशिक्षित ViTLP मॉडल वज़न को निर्दिष्ट निर्देशिका में क्लोन करें
`git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium` का उपयोग करें।

वेबसाइट खोलें

ViTLP नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

474564576

बाउंस दर

36.20%

प्रति विज़िट औसत पृष्ठ

6.1

औसत विज़िट अवधि

00:06:34

ViTLP विज़िट प्रवृत्ति

ViTLP विज़िट भौगोलिक वितरण

Best AI Websites & Tools

ViTLP

ViTLP नवीनतम ट्रैफ़िक स्थिति

ViTLP विज़िट प्रवृत्ति

ViTLP विज़िट भौगोलिक वितरण

ViTLP ट्रैफ़िक स्रोत

ViTLP विकल्प

ViTLP — दस्तावेज़ बुद्धिमत्ता के दृश्यमान मार्गदर्शन द्वारा पाठ लेआउट पूर्व प्रशिक्षित मॉडल उत्पन्न करना

एजवन पेज फ़ंक्शन्स AI OCR — AI-संचालित चित्र पाठ पहचान सेवा

एक्सरप्टर — भौतिक पुस्तकों से रेखांकित या हस्तलिखित चिह्नित पाठ निकालना

GOT-OCR2.0 — एक एकीकृत एंड-टू-एंड मॉडल के माध्यम से OCR-2.0 को लागू करना

चित्र से पाठ — ऑनलाइन चित्र से पाठ रूपांतरण

2txt — छवियों के पाठ को संपादन योग्य पाठ में तुरंत बदलें

खोज योग्य — अपनी छवियों को खोज योग्य बनाएँ

छवि/मंगा अनुवादक — किसी भी चित्र में लिखे गए पाठ का एक क्लिक में अनुवाद करें

आया विजन 32B — आया विजन 32B एक बहुभाषी दृश्य भाषा मॉडल है, जो OCR, छवि वर्णन, दृश्य तर्क आदि कई उपयोगों के लिए उपयुक्त है।

FreeParser — FreeParser एक AI-संचालित निःशुल्क दस्तावेज़ विश्लेषण उपकरण है जो कई फ़ाइल स्वरूपों का समर्थन करता है।

Google OCR ऐप्लिकेशन — Google Gemini 2.0 पर आधारित एक उच्च-परिशुद्धता OCR पाठ पहचान अनुप्रयोग।

ExtractThinker — LLM के लिए डिज़ाइन किया गया एक बुद्धिमान दस्तावेज़ प्रसंस्करण ढाँचा

STranslate — तत्काल उपयोग के लिए अनुवाद और OCR उपकरण

InternViT-6B-448px-V2_5 — InternViT-6B-448px-V1-5 पर आधारित उन्नत दृश्य मॉडल

LlamaOCR — छवियों को संरचित मार्कडाउन दस्तावेज़ में बदलता है

एक्सट्रैक्टस — तेज़ और कुशल असंरचित डेटा निष्कर्षण उपकरण

टर्बोलेन्स — एक-स्टॉप OCR एजेंट, छवियों से तेज़ी से अंतर्दृष्टि उत्पन्न करता है।

MinerU — एक एकीकृत ओपन-सोर्स उच्च-गुणवत्ता डेटा निष्कर्षण उपकरण जो PDF को मार्कडाउन और JSON स्वरूप में परिवर्तित करता है।

Koncile — नई पीढ़ी का विश्वसनीय और अनुकूलन योग्य OCR समाधान

llama-ocr — मुफ़्त npm लाइब्रेरी, Llama 3.2 विज़न का उपयोग करके OCR, मार्कडाउन टेक्स्ट आउटपुट प्रदान करती है।

pdf-एक्सट्रैक्ट-API — उच्च परिशुद्धता से चित्रों या PDF को मार्कडाउन टेक्स्ट या JSON संरचित दस्तावेज़ में बदलने वाला API

इलेक्ट्रॉनिक-घटक-छंटनीकर्ता — AI-संचालित इलेक्ट्रॉनिक घटक वर्गीकरणकर्ता, स्मार्ट घटक प्रबंधन का अंतिम समाधान।

Easydict — macOS प्लेटफ़ॉर्म पर एक सरल और उपयोग में आसान अनुवाद शब्दकोश अनुप्रयोग

Parseflow — स्मार्ट दस्तावेज़ प्रसंस्करण समाधान

eSearch — एक बहु-कार्यात्मक स्क्रीन खोज और स्क्रीनशॉट सॉफ्टवेयर।

चाँक्र (Chunkr) — मुक्त स्रोत डेटा अधिग्रहण API सेवा