El proyecto de rastreo web de código abierto Crawl4 AI ha lanzado recientemente la versión v0.4.1, con varias actualizaciones importantes. La más destacada es la nueva función de "Modo solo texto" (Text-Only Mode), que, mediante la optimización de la estrategia de carga de recursos, aumenta la eficiencia de rastreo hasta 3 o 4 veces.
"El objetivo principal de esta actualización es hacer que el rastreador sea más rápido e inteligente", afirma el mantenedor del proyecto, "especialmente al procesar páginas web modernas, la nueva versión muestra ventajas significativas."
Una de las características más importantes de esta actualización es el nuevo modo de texto. Al desactivar la carga de imágenes, la ejecución de JavaScript y el procesamiento de la GPU, este modo puede aumentar considerablemente la velocidad de rastreo. Los usuarios solo necesitan configurar el parámetro `text_only=True` para activar esta función, especialmente útil para aquellos que solo necesitan obtener el contenido de texto de una página web.
En vista de las características de las páginas web modernas, la versión v0.4.1 también ha optimizado el mecanismo de carga de contenido. La nueva versión mejora el procesamiento de contenido de carga diferida e introduce el parámetro `wait_for_images` para asegurar la carga completa de las imágenes. Además, la nueva función de ajuste dinámico de la ventana gráfica (`adjust_viewport_to_content`) garantiza que se capture correctamente todo el contenido dinámico.
Para manejar mejor las páginas con carga dinámica, como la carga infinita, Crawl4AI ha incorporado una función de escaneo de página completa. Los usuarios pueden activar esta función configurando `scan_full_page=True`, junto con el parámetro `scroll_delay` para controlar con precisión el ritmo de escaneo, simulando el comportamiento de navegación de un usuario real.
En cuanto a la optimización del rendimiento, la nueva versión también ha mejorado la gestión de sesiones. Mediante el mecanismo de reutilización de sesiones, se evita la sobrecarga de crear pestañas de navegador repetidamente, lo que reduce significativamente el consumo de memoria y mejora la eficiencia general.
Esta actualización marca un paso importante para Crawl4AI en el campo de la recopilación de datos web, ofreciendo a los desarrolladores una herramienta de rastreo más eficiente y confiable.
Enlace de publicación de código abierto: https://crawl4ai.com/mkdocs/blog/releases/0.4.1/