中国Z.com(ChinaZ.com)6月22日発表:テンセントクラウドは最近、知識サービスアシスタントを迅速に構築できる大規模言語モデル知識エンジンを発表しました。これは、業界レポート、会議用PPT、教科書、説明書、契約書、学術論文など、複雑なPDF文書の処理に特に優れています。これらの文書は、テキスト、画像、表が含まれ、フォーマットが複雑で、従来のOCR技術にとって課題となっています。

微信截图_20240622104006.png

テンセントクラウド大規模言語モデル知識エンジンは、テンセント優図研究所が独自開発したマルチモーダル文書解析大規模言語モデルを採用しています。レイアウト分析により文書の内容の位置と種類を特定し、正確に認識した後、人間の読解順序に従って、連続して読みやすい内容を出力します。表や数式などの複雑なレイアウト要素を理解して処理し、表データや構造を推論して正しく復元することもでき、認識精度を大幅に向上させています。

さらに、知識エンジンは20種類以上の言語、繁体字、珍しい漢字などをサポートし、画像やPDF文書をMarkdown形式で出力することで、大規模言語モデルのトレーニングに構造化データソースを提供し、モデルの汎化能力と適応性を向上させます。現在、文書解析機能の精度は98%以上を実現しており、複数の製品に導入され、標準化されたAPIサービスを提供しています。

体験アドレス:https://ocrdemo.cloud.tencent.com/