ओपन-सोर्स वेब क्रॉलर प्रोजेक्ट Crawl4 AI ने हाल ही में v0.4.1 संस्करण जारी किया है, जिसमें कई महत्वपूर्ण अपडेट शामिल हैं। सबसे उल्लेखनीय नई विशेषता टेक्स्ट मोड (Text-Only Mode) है, जो संसाधन लोडिंग रणनीति को अनुकूलित करके क्रॉलिंग दक्षता को 3-4 गुना बढ़ाती है।
"इस अपडेट का मुख्य उद्देश्य क्रॉलर को तेज और स्मार्ट बनाना है," प्रोजेक्ट के रखरखावकर्ता ने कहा, "विशेष रूप से आधुनिक वेब पृष्ठों को संभालने में, नया संस्करण स्पष्ट रूप से बेहतर प्रदर्शन करता है।"
इस अपडेट का एक बड़ा आकर्षण नया टेक्स्ट मोड है। चित्र लोडिंग, जावास्क्रिप्ट निष्पादन और GPU प्रोसेसिंग बंद करके, यह मोड क्रॉलिंग गति को काफी बढ़ा सकता है। उपयोगकर्ता केवल text_only=True पैरामीटर सेट करके इस विशेषता को सक्षम कर सकते हैं, जो उन परिदृश्यों के लिए विशेष रूप से उपयुक्त है जहाँ केवल वेब पृष्ठ के पाठ सामग्री की आवश्यकता होती है।
आधुनिक वेब पृष्ठों की विशेषताओं को ध्यान में रखते हुए, v0.4.1 संस्करण ने सामग्री लोडिंग तंत्र को भी अनुकूलित किया है। नए संस्करण ने लेज़ी लोडिंग सामग्री के प्रबंधन में सुधार किया है, और चित्रों के पूर्ण लोडिंग को सुनिश्चित करने के लिए wait_for_images पैरामीटर को पेश किया है। साथ ही, नया डायनामिक व्यू पोर्ट समायोजन फ़ीचर (adjust_viewport_to_content) यह सुनिश्चित करता है कि सभी डायनामिक सामग्री को सही ढंग से कैप्चर किया जा सके।
असीमित स्क्रॉलिंग जैसे डायनामिक लोडिंग पृष्ठों को बेहतर तरीके से संभालने के लिए, Crawl4AI ने पूर्ण पृष्ठ स्कैनिंग सुविधा पेश की है। उपयोगकर्ता scan_full_page=True सेट करके इस फ़ीचर को सक्षम कर सकते हैं, और scroll_delay पैरामीटर के साथ स्कैनिंग की गति को सटीक रूप से नियंत्रित कर सकते हैं, वास्तविक उपयोगकर्ता के ब्राउज़िंग व्यवहार की नकल कर सकते हैं।
प्रदर्शन अनुकूलन के मामले में, नए संस्करण ने सत्र प्रबंधन में सुधार किया है। सत्र पुन: उपयोग तंत्र के माध्यम से, ब्राउज़र टैब के पुन: निर्माण की लागत से बचा जा सकता है, जिससे मेमोरी उपयोग में उल्लेखनीय कमी आती है और समग्र संचालन दक्षता में वृद्धि होती है।
यह अपडेट Crawl4AI के लिए वेब डेटा संग्रहण के क्षेत्र में एक महत्वपूर्ण कदम का प्रतीक है, जो डेवलपर्स को अधिक कुशल और विश्वसनीय क्रॉलर उपकरण प्रदान करता है।
ओपन-सोर्स रिलीज़ पते: https://crawl4ai.com/mkdocs/blog/releases/0.4.1/