वेबमास्टर होम (ChinaZ.com) 22 जून: टेनसेंट क्लाउड ने हाल ही में एक बड़ा मॉडल ज्ञान इंजन लॉन्च किया है, जो एक उपकरण है जो तेजी से ज्ञान सेवा सहायक बनाने में सक्षम है। यह जटिल PDF दस्तावेज़ों को संभालने में विशेष रूप से कुशल है, जिसमें उद्योग रिपोर्ट, सम्मेलन PPT, पाठ्यपुस्तकें, निर्देश पुस्तिकाएं, अनुबंध दस्तावेज़ और शैक्षणिक पत्र शामिल हैं। ये दस्तावेज़ अक्सर पाठ, चित्र और तालिकाएँ शामिल करते हैं, जिनका स्वरूप जटिल होता है और पारंपरिक OCR तकनीक के लिए चुनौतीपूर्ण होता है।
टेनसेंट क्लाउड का बड़ा मॉडल ज्ञान इंजन टेनसेंट के यूटू प्रयोगशाला द्वारा विकसित बहु-मोडल दस्तावेज़ विश्लेषण बड़े मॉडल का उपयोग करता है, जो दस्तावेज़ सामग्री की स्थिति और प्रकार का विश्लेषण करने के लिए लेआउट विश्लेषण का उपयोग करता है, फिर सटीक पहचान करता है और मानव पढ़ने के क्रम में संगठित पढ़ने योग्य सामग्री को आउटपुट करता है। यह जटिल लेआउट तत्वों जैसे तालिकाओं और सूत्रों को समझने और संभालने में सक्षम है, और यहां तक कि तालिका डेटा और संरचना को सही ढंग से पुनर्स्थापित करने के लिए अनुमान लगा सकता है, जिससे पहचान की सटीकता में काफी सुधार होता है।
इसके अलावा, ज्ञान इंजन 20 से अधिक भाषाओं और पारंपरिक वर्णों, दुर्लभ वर्णों आदि का समर्थन करता है, और चित्रों और PDF दस्तावेज़ों को Markdown प्रारूप में आउटपुट करने में सक्षम है, जो बड़े मॉडल प्रशिक्षण के लिए संरचित डेटा स्रोत प्रदान करता है, जिससे मॉडल की सामान्यीकरण क्षमता और अनुकूलता में वृद्धि होती है। वर्तमान में, दस्तावेज़ विश्लेषण कार्यक्षमता की सटीकता 98% से अधिक हो सकती है, और इसे कई उत्पादों में लॉन्च किया गया है, और मानकीकृत API सेवाएं प्रदान की गई हैं।
अनुभव करने का पता: https://ocrdemo.cloud.tencent.com/