Recientemente, un proyecto de código abierto llamado gptpdf se ha vuelto viral en GitHub, alcanzando 1.1k estrellas. Utiliza un modelo VLLM similar a GPT-4o para analizar archivos PDF y convertirlos a formato Markdown.
Acceso al producto gptpdf:https://top.aibase.com/tool/gptpdf
Se entiende que el código del proyecto solo tiene 293 líneas, pero puede analizar casi perfectamente la maquetación, fórmulas matemáticas, tablas, imágenes, gráficos y otros tipos de contenido.
Los pasos para la implementación de gptpdf son:
1) Se utiliza la biblioteca PyMuPDF para analizar todas las áreas no textuales y marcarlas (para ahorrar tokens).
2) Se utiliza un modelo multimodal (como GPT-4o) para el análisis y obtener el archivo markdown.
Cabe destacar que el costo de gptpdf es de 0.013 dólares por página en promedio.
Puntos clave:
- Este proyecto de código abierto utiliza un modelo multimodal similar a GPT-4o para analizar archivos PDF y convertirlos a formato Markdown.
- El código del proyecto es conciso y eficiente, con solo 293 líneas.
- El resultado del análisis incluye casi perfectamente la maquetación, fórmulas matemáticas, tablas, imágenes, gráficos y otros tipos de contenido.