Récemment, un projet open source nommé gptpdf a suscité un vif intérêt sur GitHub, atteignant 1,1 k d'étoiles. Il utilise un modèle VLLM similaire à GPT-4o pour analyser les fichiers PDF et les convertir au format Markdown.
Accès au produit gptpdf :https://top.aibase.com/tool/gptpdf
Ce projet, dont le code ne compte que 293 lignes, est capable d'analyser avec une précision remarquable la mise en page, les formules mathématiques, les tableaux, les images et les graphiques.
Les étapes de réalisation de gptpdf sont :
1) Utilisation de la bibliothèque PyMuPDF pour analyser toutes les zones non textuelles et les marquer (pour économiser des jetons)
2) Utilisation d'un modèle multi-modal (tel que GPT-4o) pour l'analyse et l'obtention du fichier Markdown
Il est à noter que le coût de gptpdf est d'environ 0,013 $ par page.
Points clés :
- Ce projet open source utilise un modèle multi-modal similaire à GPT-4o pour analyser les fichiers PDF et les convertir au format Markdown.
- Le code du projet est concis et efficace, ne comportant que 293 lignes.
- Les résultats de l'analyse incluent avec une grande précision la mise en page, les formules mathématiques, les tableaux, les images et les graphiques.