वेबमास्टर होम (ChinaZ.com) 22 जून: टेनसेंट क्लाउड ने हाल ही में एक बड़ा मॉडल ज्ञान इंजन लॉन्च किया है, जो एक उपकरण है जो तेजी से ज्ञान सेवा सहायक बनाने में सक्षम है। यह जटिल PDF दस्तावेज़ों को संभालने में विशेष रूप से कुशल है, जिसमें उद्योग रिपोर्ट, सम्मेलन PPT, पाठ्यपुस्तकें, निर्देश पुस्तिकाएं, अनुबंध दस्तावेज़ और शैक्षणिक पत्र शामिल हैं। ये दस्तावेज़ अक्सर पाठ, चित्र और तालिकाएँ शामिल करते हैं, जिनका स्वरूप जटिल होता है और पारंपरिक OCR तकनीक के लिए चुनौतीपूर्ण होता है।

微信截图_20240622104006.png

टेनसेंट क्लाउड का बड़ा मॉडल ज्ञान इंजन टेनसेंट के यूटू प्रयोगशाला द्वारा विकसित बहु-मोडल दस्तावेज़ विश्लेषण बड़े मॉडल का उपयोग करता है, जो दस्तावेज़ सामग्री की स्थिति और प्रकार का विश्लेषण करने के लिए लेआउट विश्लेषण का उपयोग करता है, फिर सटीक पहचान करता है और मानव पढ़ने के क्रम में संगठित पढ़ने योग्य सामग्री को आउटपुट करता है। यह जटिल लेआउट तत्वों जैसे तालिकाओं और सूत्रों को समझने और संभालने में सक्षम है, और यहां तक कि तालिका डेटा और संरचना को सही ढंग से पुनर्स्थापित करने के लिए अनुमान लगा सकता है, जिससे पहचान की सटीकता में काफी सुधार होता है।

इसके अलावा, ज्ञान इंजन 20 से अधिक भाषाओं और पारंपरिक वर्णों, दुर्लभ वर्णों आदि का समर्थन करता है, और चित्रों और PDF दस्तावेज़ों को Markdown प्रारूप में आउटपुट करने में सक्षम है, जो बड़े मॉडल प्रशिक्षण के लिए संरचित डेटा स्रोत प्रदान करता है, जिससे मॉडल की सामान्यीकरण क्षमता और अनुकूलता में वृद्धि होती है। वर्तमान में, दस्तावेज़ विश्लेषण कार्यक्षमता की सटीकता 98% से अधिक हो सकती है, और इसे कई उत्पादों में लॉन्च किया गया है, और मानकीकृत API सेवाएं प्रदान की गई हैं।

अनुभव करने का पता: https://ocrdemo.cloud.tencent.com/