कंप्यूटर विज्ञान के क्षेत्र में, जटिल संरचना वाले दस्तावेज़ों को व्यवस्थित डेटा में बदलना हमेशा से एक चुनौतीपूर्ण कार्य रहा है। पहले के "पारंपरिक तरीके" या तो विभिन्न मॉडलों के "समूह" पर निर्भर करते थे, जिससे एक जटिल प्रक्रिया बनती थी, या फिर "विशाल" बहु-मोडल मॉडल का उपयोग करते थे, जो बहुत शक्तिशाली लगते थे, लेकिन अक्सर "भ्रम" पैदा करते थे और बहुत "महंगे" होते थे।

QQ_1742377209054.png

लेकिन हाल ही में IBM और Hugging Face द्वारा संयुक्त रूप से लॉन्च किया गया SmolDocling, केवल 256M पैरामीटर वाला एक ओपन-सोर्स दृश्य-भाषा मॉडल (VLM) है, जिसका लक्ष्य बहुत स्पष्ट है: बहु-मोडल दस्तावेज़ रूपांतरण कार्यों को एंड-टू-एंड तरीके से हल करना

SmolDocling की अनोखी विशेषताएँ

SmolDocling की सबसे प्रशंसनीय बात इसकी "छोटी साइज़" और "असाधारण क्षमताएँ" हैं। अरबों या खरबों पैरामीटर वाले "बड़े मॉडल" के विपरीत, SmolDocling का आकार केवल 256 मेगाबाइट है, जो मॉडल की दुनिया में एक "हल्का सैनिक" है, जिससे गणना की जटिलता और संसाधन की आवश्यकता में उल्लेखनीय कमी आती है। और भी बेहतर यह है कि यह पूरे पेज को एक ही मॉडल के माध्यम से संसाधित कर सकता है, जिससे पारंपरिक तरीकों की जटिल प्रक्रियाएँ सरल हो जाती हैं।

निश्चित रूप से, "छोटा आकार" कमज़ोरी का प्रतीक नहीं है। SmolDocling के पास एक "अनोखा हथियार" भी है - DocTags, जो एक सामान्य मार्कअप प्रारूप है जो पेज तत्वों, उनकी संरचना और स्थानिक संदर्भ को अत्यधिक संक्षिप्त और स्पष्ट तरीके से सटीक रूप से कैप्चर कर सकता है। आप इसे दस्तावेज़ के प्रत्येक तत्व पर स्पष्ट "लेबल" लगाने की तरह सोच सकते हैं, जिससे मशीन दस्तावेज़ के आंतरिक तर्क को सटीक रूप से समझ सकती है।

SmolDocling की संरचना Hugging Face के SmolVLM-256M पर आधारित है, जो इष्टतम टोकनाइज़ेशन और आक्रामक दृश्य विशेषता संपीड़न विधियों के माध्यम से, गणना की जटिलता में उल्लेखनीय कमी प्राप्त करता है। इसका मुख्य लाभ नवीन DocTags प्रारूप में है, जो दस्तावेज़ लेआउट, पाठ सामग्री और तालिकाओं, सूत्रों, कोड स्निपेट और चार्ट जैसी दृश्य जानकारी को स्पष्ट रूप से अलग कर सकता है। अधिक कुशल प्रशिक्षण के लिए, SmolDocling ने पाठ्यक्रम अधिगम पद्धति का भी उपयोग किया है, पहले दृश्य एन्कोडर को "स्थिर" किया, और फिर धीरे-धीरे अधिक समृद्ध डेटासेट का उपयोग करके इसे बेहतर बनाया, ताकि विभिन्न दस्तावेज़ तत्वों के बीच दृश्य अर्थ संबंधी संरेखण को मजबूत किया जा सके। इससे भी अधिक आश्चर्यजनक यह है कि इसकी उच्च दक्षता के कारण, SmolDocling पूरे दस्तावेज़ पृष्ठ को बहुत तेज़ी से संसाधित करता है, उपभोक्ता-स्तरीय GPU पर प्रति पृष्ठ औसतन केवल 0.35 सेकंड में, और केवल 500MB से कम VRAM का उपयोग करके

QQ_1742377221035.png

"छोटा मॉडल भी 'विशाल' को हरा सकता है"

कार्यक्षमता प्रदर्शन से ही सब सिद्ध होता है, SmolDocling ने प्रदर्शन परीक्षणों में अपनी क्षमता साबित की है कि यह केवल "दिखावा" नहीं है। विभिन्न दस्तावेज़ रूपांतरण कार्यों से संबंधित व्यापक बेंचमार्क परीक्षणों में, SmolDocling का प्रदर्शन कई बड़े प्रतिस्पर्धी मॉडलों से काफी बेहतर रहा। उदाहरण के लिए, पूरे पृष्ठ के दस्तावेज़ OCR कार्य में, 7 बिलियन पैरामीटर वाले Qwen2.5VL और 350 मिलियन पैरामीटर वाले Nougat की तुलना में, SmolDocling ने काफी अधिक सटीकता प्राप्त की, इसकी संपादन दूरी (0.48) कम है, और F1 स्कोर (0.80) अधिक है

सूत्र ट्रांसक्रिप्शन के मामले में, SmolDocling ने 0.95 का F1 स्कोर प्राप्त किया, जो GOT जैसे अत्याधुनिक मॉडल के बराबर है। इससे भी अधिक प्रशंसनीय यह है कि SmolDocling ने कोड स्निपेट पहचान में एक नया मानक स्थापित किया है, जिसकी सटीकता और स्मरण शक्ति क्रमशः 0.94 और 0.91 है। यह वास्तव में "छोटा कद, बड़ी ताकत" है, जिसने सभी प्रमुख क्षेत्रों में अद्भुत क्षमता दिखाई है!

"अठारह प्रकार के हथियार": जटिल दस्तावेज़ों को भी आसानी से संभाल सकता है

SmolDocling और अन्य दस्तावेज़ OCR समाधानों के बीच अंतर यह है कि यह दस्तावेज़ों में विभिन्न जटिल तत्वों को संभाल सकता है, जिसमें कोड, चार्ट, सूत्र और विभिन्न लेआउट शामिल हैं। इसकी क्षमता सामान्य वैज्ञानिक पत्रों तक ही सीमित नहीं है, बल्कि यह पेटेंट, तालिकाओं और व्यावसायिक दस्तावेज़ों को भी विश्वसनीय रूप से संसाधित कर सकता है

DocTags द्वारा व्यापक संरचित मेटाडेटा प्रदान करके, SmolDocling HTML या Markdown जैसे प्रारूपों में अंतर्निहित अस्पष्टता को समाप्त करता है, जिससे दस्तावेज़ रूपांतरण की डाउनस्ट्रीम उपयोगिता में वृद्धि होती है। इसका संक्षिप्त आकार इसे अत्यंत कम संसाधन आवश्यकताओं के साथ बड़े पैमाने पर बैच प्रसंस्करण करने में सक्षम बनाता है, जो बड़े पैमाने पर परिनियोजन के लिए एक किफायती समाधान प्रदान करता है। इसका मतलब है कि भविष्य में, कंपनियों को बड़ी मात्रा में जटिल दस्तावेज़ों को संसाधित करते समय उच्च गणना लागत और जटिल प्रक्रियाओं के बारे में चिंता करने की आवश्यकता नहीं होगी।

संक्षेप में, SmolDocling के लॉन्च ने दस्तावेज़ रूपांतरण तकनीक में एक महत्वपूर्ण सफलता का प्रतिनिधित्व किया है। इसने इस बात का प्रमाण दिया है कि संक्षिप्त मॉडल न केवल बड़े आधार मॉडल के साथ प्रतिस्पर्धा कर सकते हैं, बल्कि महत्वपूर्ण कार्यों में उन्हें काफी हद तक पार भी कर सकते हैं

शोधकर्ताओं ने सफलतापूर्वक दिखाया है कि लक्षित प्रशिक्षण, नवीन डेटा संवर्धन और DocTags जैसे नए मार्कअप प्रारूपों के माध्यम से, पारंपरिक रूप से मॉडल के आकार और जटिलता से जुड़ी सीमाओं को दूर किया जा सकता है। SmolDocling का ओपन-सोर्स होने से न केवल OCR तकनीक के लिए दक्षता और बहुमुखी प्रतिभा के नए मानक स्थापित हुए हैं, बल्कि खुले डेटासेट और कुशल संक्षिप्त मॉडल आर्किटेक्चर के माध्यम से समुदाय को एक बहुमूल्य संसाधन भी प्रदान किया गया है।