Recientemente, un proyecto de código abierto llamado gptpdf se ha vuelto viral en GitHub, alcanzando 1.1k estrellas. Utiliza un modelo VLLM similar a GPT-4o para analizar archivos PDF y convertirlos a formato Markdown.

image.png

Acceso al producto gptpdf:https://top.aibase.com/tool/gptpdf

Se entiende que el código del proyecto solo tiene 293 líneas, pero puede analizar casi perfectamente la maquetación, fórmulas matemáticas, tablas, imágenes, gráficos y otros tipos de contenido.

image.png

 Los pasos para la implementación de gptpdf son:

1) Se utiliza la biblioteca PyMuPDF para analizar todas las áreas no textuales y marcarlas (para ahorrar tokens).

2) Se utiliza un modelo multimodal (como GPT-4o) para el análisis y obtener el archivo markdown.

Cabe destacar que el costo de gptpdf es de 0.013 dólares por página en promedio.

Puntos clave:

- Este proyecto de código abierto utiliza un modelo multimodal similar a GPT-4o para analizar archivos PDF y convertirlos a formato Markdown.

- El código del proyecto es conciso y eficiente, con solo 293 líneas.

- El resultado del análisis incluye casi perfectamente la maquetación, fórmulas matemáticas, tablas, imágenes, gráficos y otros tipos de contenido.