11 मार्च को, Baidu AI ने एक नए टेबल पहचान समाधान PP-TableMagic को ओपन सोर्स किया, जिससे संरचित जानकारी निकालने के क्षेत्र में एक बड़ी सफलता मिली। PP-TableMagic का उद्देश्य जटिल परिस्थितियों में पारंपरिक टेबल पहचान तकनीक की सीमाओं को दूर करना है, एक नवीन मल्टी-मॉडल नेटवर्क आर्किटेक्चर के माध्यम से, उच्च-सटीकता वाले एंड-टू-एंड टेबल पहचान को लागू करता है, और सभी परिदृश्यों में उच्च अनुकूलन योग्य मॉडल फाइन-ट्यूनिंग का समर्थन करता है।

आज के डिजिटल युग में, बड़ी मात्रा में महत्वपूर्ण टेबल डेटा अभी भी गैर-संरचित रूप में मौजूद है, जैसे स्कैन किए गए दस्तावेज़ों में सांख्यिकीय तालिका चित्र और PDF फ़ाइलों में वित्तीय रिपोर्ट डेटा। इस डेटा को सीधे स्वचालित रूप से संसाधित नहीं किया जा सकता है, और टेबल पहचान तकनीक दस्तावेज़ बुद्धिमान समझ और डेटा विश्लेषण की कुंजी बन जाती है। हालाँकि, जटिल टेबल स्वरूपों का सामना करते समय पारंपरिक सामान्य टेबल पहचान मॉडल अक्सर खराब प्रदर्शन करते हैं, विभिन्न अनुप्रयोग परिदृश्यों की आवश्यकताओं को पूरा करने में असमर्थ होते हैं। इसके लिए, Baidu飞桨 टीम ने PP-TableMagic जारी किया है, जो "टेबल वर्गीकरण + टेबल संरचना पहचान + सेल पहचान" के मल्टी-मॉडल सीरियल नेटवर्किंग योजना को अपनाता है, जिससे टेबल पहचान की सटीकता और अनुकूलन क्षमता में उल्लेखनीय रूप से सुधार हुआ है।

微信截图_20250312082522.png

PP-TableMagic का मुख्य लाभ इसके नवीन आर्किटेक्चर डिज़ाइन में है। यह योजना एक दोहरी-धारा आर्किटेक्चर को अपनाती है, टेबल को वायर्ड टेबल और वायरलेस टेबल में विभाजित करती है, और फिर एंड-टू-एंड टेबल पहचान कार्य को सेल पहचान और टेबल संरचना पहचान में विभाजित करती है, और अंत में एक पूर्ण HTML टेबल भविष्यवाणी परिणाम उत्पन्न करने के लिए एक स्व-अनुकूलन परिणाम संलयन एल्गोरिथ्म का उपयोग करती है। इसमें, 飞桨 टीम द्वारा स्वतंत्र रूप से विकसित हल्के टेबल वर्गीकरण मॉडल PP-LCNet_x1_0_table_cls उच्च सटीकता के साथ वायर्ड टेबल और वायरलेस टेबल को वर्गीकृत कर सकता है; उद्योग में पहला ओपन-सोर्स टेबल सेल पहचान मॉडल RT-DETR-L_table_cell_det विभिन्न प्रकार के टेबल कोशिकाओं की सटीक पहचान करता है; और नया टेबल संरचना पहचान मॉडल SLANeXt टेबल HTML संरचना विश्लेषण में उत्कृष्ट प्रदर्शन करता है, पिछले मॉडल SLANet और SLANet_plus की तुलना में, SLANeXt एक मजबूत विशेषता प्रतिनिधित्व क्षमता वाले Vary-ViT-B का उपयोग दृश्य एन्कोडर के रूप में करता है, जिससे टेबल संरचना पहचान की सटीकता में और सुधार होता है।

वास्तविक अनुप्रयोगों में, PP-TableMagic न केवल सीधे टेबल को संसाधित कर सकता है, बल्कि विभिन्न परिदृश्यों की आवश्यकताओं को पूरा करने के लिए अनुकूलित मॉडल फाइन-ट्यूनिंग के माध्यम से भी कर सकता है। पारंपरिक एंड-टू-एंड टेबल पहचान मॉडल के फाइन-ट्यूनिंग की तुलना में, PP-TableMagic का मल्टी-मॉडल नेटवर्क आर्किटेक्चर उपयोगकर्ताओं को केवल प्रमुख मॉडल को फाइन-ट्यून करने की अनुमति देता है, जिससे "एक-दूसरे को प्रभावित करने" की प्रदर्शन समस्या से बचा जा सकता है, साथ ही डेटा लेबलिंग के काम की मात्रा भी कम हो जाती है। इसके अतिरिक्त, अनुभवी डेवलपर्स के लिए, PP-TableMagic आर्किटेक्चर शाखा-स्तरीय समायोजन का भी समर्थन करता है, जो विशिष्ट प्रकार के टेबल डेटा के लिए अनुकूलित किया जा सकता है, जिससे समग्र पहचान क्षमता में और सुधार होता है।

उपयोगकर्ताओं को जल्दी से शुरू करने में मदद करने के लिए, PP-TableMagic एक विस्तृत स्थापना गाइड और उपयोग ट्यूटोरियल प्रदान करता है। उपयोगकर्ता PaddleX द्वारा प्रदान किए गए Python API का उपयोग करके आसानी से मॉडल को कॉल कर सकते हैं, टेबल पहचान कर सकते हैं और परिणाम निर्यात कर सकते हैं। इसके अतिरिक्त, PP-TableMagic उच्च-प्रदर्शन अनुमान, सेवा-आधारित परिनियोजन और क्लाइंट-साइड परिनियोजन का भी समर्थन करता है, जो विभिन्न उपयोगकर्ता आवश्यकताओं को पूरा कर सकता है। Baidu飞桨 टीम ने 13 मार्च को एक ऑनलाइन पाठ्यक्रम आयोजित करने की भी योजना बनाई है, जो PP-TableMagic के तकनीकी विवरणों का गहन विश्लेषण करेगा, और एक उद्योग परिदृश्य व्यावहारिक प्रशिक्षण शिविर आयोजित करेगा, जो उपयोगकर्ताओं को डेटा तैयारी से लेकर मॉडल परिनियोजन तक की पूरी विकास प्रक्रिया का अनुभव करने में मदद करेगा।

ओपन सोर्स पता: https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md