pdf-extract-api
画像またはPDFを高精度でMarkdownテキストまたはJSON構造化ドキュメントに変換するAPI
一般製品生産性apipdf
pdf-extract-apiは、最新のOCR技術とOllama対応モデルを使用して、あらゆるドキュメントや画像を構造化されたJSONまたはMarkdownテキストに変換するAPIです。FastAPIで構築されており、Celeryによる非同期タスク処理、RedisによるOCR結果のキャッシングを使用しています。クラウドや外部依存関係を必要とせず、すべての処理はローカル開発環境またはサーバー環境で行われ、データの安全性を確保します。PDFからMarkdownへの高精度変換(表データ、数値、数式を含む)をサポートし、Ollama対応モデルを使用してPDFからJSONへの変換も可能です。さらに、LLMによるOCR結果の改善、PDFからの個人情報(PII)の削除、分散キュー処理、キャッシングにも対応しています。
pdf-extract-api 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34