ChinaZ.com (站长之家) – 22. Juni 2024: Tencent Cloud hat kürzlich eine KI-gestützte Wissensdatenbank (大模型知识引擎) vorgestellt, ein Tool zum schnellen Erstellen von Wissens-Assistenzsystemen. Es ist besonders gut darin, komplexe PDF-Dokumente zu verarbeiten, darunter Branchenberichte, Konferenz-PPTs, Lehrbücher, Handbücher, Verträge und wissenschaftliche Arbeiten. Diese Dokumente enthalten oft Text, Bilder und Tabellen in komplexen Formaten, was für herkömmliche OCR-Technologien eine Herausforderung darstellt.
Die Tencent Cloud KI-gestützte Wissensdatenbank nutzt ein selbstentwickeltes multimodales Dokumentenanalyse-KI-Modell von Tencent YouTu Lab. Es lokalisiert mithilfe der Layoutanalyse die Position und den Typ des Dokumenteninhalts, erkennt ihn präzise und gibt ihn in einer zusammenhängenden, lesbaren Reihenfolge aus. Es kann komplexe Layoutelemente wie Tabellen und Formeln verstehen und verarbeiten und sogar Tabellen-Daten und -strukturen korrekt rekonstruieren, wodurch die Erkennungsgenauigkeit erheblich verbessert wird.
Darüber hinaus unterstützt die Wissensdatenbank über 20 Sprachen sowie traditionelle Schriftzeichen und seltene Schriftzeichen. Sie kann Bilder und PDF-Dokumente in Markdown konvertieren und so strukturierte Datenquellen für das KI-Training bereitstellen, um die Generalisierungsfähigkeit und Anpassungsfähigkeit des Modells zu verbessern. Derzeit erreicht die Genauigkeit der Dokumentenanalyse über 98% und ist bereits in mehreren Produkten im Einsatz und als standardisierte API verfügbar.
Testversion: https://ocrdemo.cloud.tencent.com/