开源网络爬虫项目Crawl4 AI近日发布了v0.4. 1 版本,带来多项重大更新。最引人注目的是新增的文本模式(Text-Only Mode)功能,该模式通过优化资源加载策略,将爬取效率提升至原来的3- 4 倍。
"这次更新的核心是让爬虫变得更快、更智能,"项目维护者表示,"特别是在处理现代网页时,新版本展现出显著优势。"
本次更新的一大亮点是全新的文本模式。通过关闭图片加载、JavaScript执行和GPU处理,该模式可以大幅提升爬取速度。用户只需设置text_only=True参数即可启用这一功能,特别适合那些只需获取网页文本内容的场景。
针对现代网页的特点,v0.4. 1 版本还优化了内容加载机制。新版本改进了对懒加载内容的处理,并引入了wait_for_images参数确保图片完整加载。同时,新增的动态视口调整功能(adjust_viewport_to_content)能够确保所有动态内容都能被正确捕获。
为了更好地处理无限滚动等动态加载页面,Crawl4AI引入了全页面扫描功能。用户可通过设置scan_full_page=True启用该功能,配合scroll_delay参数精确控制扫描节奏,模拟真实用户的浏览行为。
在性能优化方面,新版本还对会话管理进行了改进。通过会话复用机制,避免了重复创建浏览器标签页的开销,显著降低了内存占用,提升了整体运行效率。
这次更新标志着Crawl4AI在网页数据采集领域迈出了重要一步,为开发者提供了更高效、更可靠的爬虫工具。
开源发布地址:https://crawl4ai.com/mkdocs/blog/releases/0.4.1/