Das Open-Source-Webcrawler-Projekt Crawl4 AI hat kürzlich die Version v0.4.1 veröffentlicht, die mehrere wichtige Updates enthält. Am bemerkenswertesten ist die neue Text-Only-Modus-Funktion. Dieser Modus verbessert die Ladegeschwindigkeit von Ressourcen und steigert die Crawling-Effizienz auf das 3-4-fache.

„Das Kernstück dieses Updates ist es, den Crawler schneller und intelligenter zu machen“, so der Projektverantwortliche. „Besonders bei der Verarbeitung moderner Webseiten zeigt die neue Version deutliche Vorteile.“

image.png

Ein Highlight dieses Updates ist der neue Text-Only-Modus. Durch das Deaktivieren des Bildladens, der JavaScript-Ausführung und der GPU-Verarbeitung kann dieser Modus die Crawling-Geschwindigkeit erheblich verbessern. Benutzer können diese Funktion einfach mit dem Parameter text_only=True aktivieren. Dies ist besonders für Szenarien geeignet, bei denen nur der Textinhalt einer Webseite benötigt wird.

Angepasst an die Eigenschaften moderner Webseiten wurde in der Version v0.4.1 der Mechanismus zum Laden von Inhalten optimiert. Die neue Version verbessert die Verarbeitung von Inhalten mit Lazy Loading und führt den Parameter wait_for_images ein, um sicherzustellen, dass Bilder vollständig geladen werden. Die neue Funktion zur dynamischen Anpassung der Bildschirmgröße (adjust_viewport_to_content) stellt sicher, dass alle dynamischen Inhalte korrekt erfasst werden.

Um dynamisch geladene Seiten mit unendlichem Scrollen besser zu verarbeiten, hat Crawl4AI eine Funktion zum vollständigen Scannen der Seite eingeführt. Benutzer können diese Funktion mit scan_full_page=True aktivieren und mit dem Parameter scroll_delay den Scan-Rhythmus präzise steuern, um das Verhalten eines echten Benutzers zu simulieren.

Im Bereich der Performance-Optimierung wurde in der neuen Version auch die Sitzungsverwaltung verbessert. Durch die Wiederverwendung von Sitzungen werden die Kosten für das wiederholte Erstellen von Browser-Tabs vermieden, wodurch der Speicherverbrauch deutlich reduziert und die Gesamteffizienz gesteigert wird.

Dieses Update markiert einen wichtigen Schritt für Crawl4AI im Bereich der Webdatenextraktion und bietet Entwicklern ein effizienteres und zuverlässigeres Crawling-Tool.

Open-Source-Veröffentlichungsadresse: https://crawl4ai.com/mkdocs/blog/releases/0.4.1/