डिजिटल युग में, छवियों में पाठ सामग्री को तेजी से संपादित करने योग्य पाठ में परिवर्तित करना एक सामान्य और महत्वपूर्ण आवश्यकता है। अब, GOT (सामान्य ऑप्टिकल कैरेक्टर रिकग्निशन थ्योरी) नामक एक नई ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) मॉडल का आगमन, OCR तकनीक को 2.0 युग में ले जाने का प्रतीक है। यह नवोन्मेषी मॉडल पारंपरिक OCR सिस्टम और बड़े भाषा मॉडलों के लाभों को संयोजित करता है, जिसका उद्देश्य एक अधिक कुशल और बुद्धिमान पाठ पहचान उपकरण बनाना है।
GOT मॉडल ने एक नवोन्मेषी एंड-टू-एंड आर्किटेक्चर को अपनाया है, यह डिज़ाइन न केवल संसाधनों को बचाता है, बल्कि पहचान क्षमता को भी काफी बढ़ाता है, जिससे यह केवल पाठ पहचान तक सीमित नहीं है। इस मॉडल में लगभग 80 मिलियन पैरामीटर वाला एक छवि एन्कोडर और लगभग 5 मिलियन पैरामीटर वाला एक डिकोडर शामिल है। छवि एन्कोडर 1024x1024 पिक्सल तक की छवियों को डेटा इकाइयों में संकुचित कर सकता है, जबकि डिकोडर इन डेटा को 8000 वर्णों तक के पाठ में परिवर्तित करता है।
GOT की ताकत इसकी बहु-कार्यात्मकता में है, यह न केवल अंग्रेजी और चीनी दस्तावेजों और दृश्य पाठ को पहचान सकता है, बल्कि गणितीय रसायन सूत्र, संगीत प्रतीक, सरल ज्यामितीय आकृतियों और विभिन्न चार्ट को भी संभाल सकता है। यह GOT को एक सच्चे बहु-कार्यकर्ता बनाता है।
इस मॉडल को प्रशिक्षित करने के लिए, अनुसंधान टीम ने पहले पाठ पहचान कार्य पर ध्यान केंद्रित किया, फिर अलिबाबा के Qwen-0.5B को डिकोडर के रूप में अपनाया, और विभिन्न संश्लेषण डेटा के माध्यम से ट्यूनिंग की। उन्होंने LaTeX, Mathpix-markdown-it और Matplotlib जैसे पेशेवर रेंडरिंग टूल का उपयोग करके लाखों छवि-टेक्स्ट जोड़े उत्पन्न किए, जो मॉडल प्रशिक्षण के लिए उपयोगी थे।
OCR2.0 तकनीक की एक और बड़ी विशेषता यह है कि यह स्वरूपित पाठ, शीर्षक, और यहां तक कि बहु-पृष्ठ छवियों को निकालने और उन्हें संरचित डिजिटल प्रारूप में परिवर्तित करने की क्षमता रखती है। यह विज्ञान, संगीत और डेटा विश्लेषण जैसे क्षेत्रों में स्वचालित प्रसंस्करण और विश्लेषण के लिए नए संभावनाएं प्रदान करता है।
विभिन्न OCR कार्यों के परीक्षण में, GOT ने उत्कृष्ट प्रदर्शन प्रदर्शित किया है, दस्तावेज़ और दृश्य पाठ पहचान में उद्योग में अग्रणी परिणाम प्राप्त किए हैं, यहां तक कि चार्ट पहचान में भी कई पेशेवर मॉडलों और बड़े भाषा मॉडलों को पार कर गया है। चाहे जटिल रासायनिक संरचना सूत्र हो, संगीत प्रतीक या डेटा दृश्यता, OCR2.0 सटीकता से पकड़ सकता है और मशीन-पठनीय प्रारूप में परिवर्तित कर सकता है।
अधिक उपयोगकर्ताओं को इस तकनीक का अनुभव करने और उपयोग करने के लिए, अनुसंधान टीम ने Hugging Face प्लेटफॉर्म पर मुफ्त डेमो और कोड जारी किया है। OCR2.0 का आगमन निश्चित रूप से सूचना प्रसंस्करण क्षेत्र में एक क्रांति लाता है, यह न केवल दक्षता को बढ़ाता है, बल्कि लचीलापन भी बढ़ाता है, जिससे हम छवियों में पाठ जानकारी के प्रसंस्करण को और अधिक सहजता से कर सकते हैं।