ViTLP

ドキュメントインテリジェンスのための、視覚誘導型テキストレイアウト生成事前学習モデル

一般製品生産性OCRドキュメントインテリジェンス
ViTLPは、ドキュメントインテリジェンス処理の効率と精度向上を目指した、視覚誘導型テキストレイアウト生成事前学習モデルです。OCRによるテキスト位置特定と認識機能を統合し、ドキュメント画像上での迅速かつ正確なテキスト検出と認識を実現します。計算資源と事前学習データセット規模の制約下において、ViTLP-medium(3億8000万パラメータ)という事前学習済みバージョンは、モデル性能と推論速度・メモリ使用量の最適化のバランスを取ったソリューションを提供します。Nvidia 4090を用いたViTLPの推論速度は、1ページのドキュメント画像処理に通常5~10秒かかり、多くのOCRエンジンと比較して競争力があります。
ウェブサイトを開く

ViTLP 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

ViTLP 訪問数の傾向

ViTLP 訪問地理的分布

ViTLP トラフィックソース

ViTLP 代替品