pdf-extract-api ist eine API, die mit moderner OCR-Technologie und Ollama-unterstützten Modellen beliebige Dokumente oder Bilder in strukturierten JSON- oder Markdown-Text umwandelt. Sie ist mit FastAPI aufgebaut und verwendet Celery zur asynchronen Aufgabenverarbeitung sowie Redis zum Zwischenspeichern von OCR-Ergebnissen. Die API benötigt keine Cloud- oder externen Abhängigkeiten; die gesamte Verarbeitung erfolgt lokal in der Entwicklungs- oder Serverumgebung, um die Datensicherheit zu gewährleisten. Sie unterstützt die hochpräzise Konvertierung von PDF in Markdown, einschließlich Tabellendaten, Zahlen oder mathematischer Formeln, und ermöglicht die PDF-zu-JSON-Konvertierung mithilfe von Ollama-unterstützten Modellen. Darüber hinaus unterstützt die API die Verbesserung von OCR-Ergebnissen durch LLMs, die Entfernung persönlicher Daten (PII) aus PDFs sowie die verteilte Warteschlangenverarbeitung und Zwischenspeicherung.