Extractous
高速・高効率の非構造化データ抽出ツール
一般製品プログラミングnlprust
ExtractousはRustで記述された非構造化データ抽出ツールで、複数の言語バインディングを提供します。PDF、Word、HTMLなど、様々なファイルタイプからのコンテンツとメタデータの抽出に特化しており、優れたパフォーマンスと低メモリ消費を実現しています。ネイティブコードで実行することで高速な処理速度と低メモリ使用を実現し、様々なファイル形式をサポート。Apache Tikaとtesseract-ocr技術を統合することで、幅広いファイルタイプを処理し、OCR認識も可能です。オープンソースであり、Apache 2.0ライセンスの下で商用利用も無料で可能です。大量の文書データを扱う企業や開発者にとって最適なツールです。
Extractous 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34