pdf-extract-api
API de haute précision pour convertir des images ou des PDF en texte Markdown ou en documents structurés JSON.
Produit OrdinaireProductivitéapipdf
pdf-extract-api est une API utilisant des technologies OCR modernes et des modèles compatibles Ollama pour convertir n'importe quel document ou image en texte JSON ou Markdown structuré. Construite avec FastAPI et utilisant Celery pour le traitement asynchrone des tâches et Redis pour le cache des résultats OCR, cette API ne nécessite aucun service cloud ou dépendance externe. Tout le traitement est effectué localement, dans un environnement de développement ou serveur, garantissant ainsi la sécurité des données. Elle prend en charge la conversion haute précision de PDF en Markdown, y compris les données tabulaires, les chiffres et les formules mathématiques, et permet la conversion de PDF en JSON grâce à des modèles compatibles Ollama. De plus, l'API permet d'améliorer les résultats OCR grâce à des LLM, de supprimer les informations d'identification personnelle (PII) des PDF, et prend en charge le traitement par file d'attente distribuée et le caching.
pdf-extract-api Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34