pdf-extract-api
API de alta precisão para conversão de imagens ou PDFs em texto Markdown ou documentos estruturados em JSON.
Produto ComumProdutividadeapipdf
O pdf-extract-api é uma API que utiliza tecnologia OCR moderna e modelos suportados por Ollama para converter qualquer documento ou imagem em JSON estruturado ou texto Markdown. Construído com FastAPI e utilizando Celery para processamento assíncrono de tarefas e Redis para cache de resultados OCR. A API não requer nuvem ou dependências externas; todo o processamento é feito localmente, em ambiente de desenvolvimento ou servidor, garantindo a segurança dos dados. Suporta conversão de PDF para Markdown com alta precisão, incluindo dados de tabelas, números ou fórmulas matemáticas, e conversão de PDF para JSON com modelos suportados por Ollama. Além disso, a API suporta aprimoramento de resultados OCR com LLM, remoção de informações de identificação pessoal (PII) de PDFs, processamento de fila distribuída e cache.
pdf-extract-api Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34