Récemment, un projet open source nommé gptpdf a suscité un vif intérêt sur GitHub, atteignant 1,1 k d'étoiles. Il utilise un modèle VLLM similaire à GPT-4o pour analyser les fichiers PDF et les convertir au format Markdown.

image.png

Accès au produit gptpdf :https://top.aibase.com/tool/gptpdf

Ce projet, dont le code ne compte que 293 lignes, est capable d'analyser avec une précision remarquable la mise en page, les formules mathématiques, les tableaux, les images et les graphiques.

image.png

 Les étapes de réalisation de gptpdf sont :

1) Utilisation de la bibliothèque PyMuPDF pour analyser toutes les zones non textuelles et les marquer (pour économiser des jetons)

2) Utilisation d'un modèle multi-modal (tel que GPT-4o) pour l'analyse et l'obtention du fichier Markdown

Il est à noter que le coût de gptpdf est d'environ 0,013 $ par page.

Points clés :

- Ce projet open source utilise un modèle multi-modal similaire à GPT-4o pour analyser les fichiers PDF et les convertir au format Markdown.

- Le code du projet est concis et efficace, ne comportant que 293 lignes.

- Les résultats de l'analyse incluent avec une grande précision la mise en page, les formules mathématiques, les tableaux, les images et les graphiques.