हाल ही में, Firecrawl ने एक नई सुविधा शुरू की है - LLMs.txt जेनरेटर इंटरफ़ेस (अल्फ़ा संस्करण), जिसका उद्देश्य उपयोगकर्ताओं को किसी भी वेबसाइट की सामग्री को स्पष्ट, बड़े भाषा मॉडल (LLM) प्रशिक्षण के लिए उपयुक्त पाठ फ़ाइलों में बदलने में मदद करना है। उपयोगकर्ताओं को केवल एक वेबसाइट का URL प्रदान करने की आवश्यकता है, Firecrawl उस वेबसाइट और उसके लिंक किए गए पृष्ठों को क्रॉल करेगा, और दो प्रकार की पाठ फ़ाइलें उत्पन्न करेगा: llms.txt और llms-full.txt, जो बाद के विश्लेषण और प्रशिक्षण के लिए सुविधाजनक हैं।
इस जेनरेटर की कार्य प्रक्रिया अपेक्षाकृत सरल है। उपयोगकर्ताओं को केवल एक वेब पता प्रदान करने की आवश्यकता है, और सिस्टम स्वचालित रूप से उस वेबसाइट की सामग्री को क्रॉल करेगा, और स्वच्छ और सार्थक पाठ जानकारी निकालेगा। उत्पन्न फ़ाइलें दो प्रकार की होती हैं: llms.txt वेबसाइट सामग्री का एक संक्षिप्त सारांश है, जिसमें महत्वपूर्ण जानकारी शामिल है; जबकि llms-full.txt अधिक विस्तृत और पूर्ण पाठ सामग्री है, जो गहन विश्लेषण की आवश्यकता वाले उपयोगकर्ताओं के लिए उपयुक्त है।
उपयोग के दौरान, उपयोगकर्ता कुछ महत्वपूर्ण पैरामीटर सेट कर सकते हैं। सबसे पहले "url" है, अर्थात वह वेब पता जिसके लिए आप LLMs.txt फ़ाइल उत्पन्न करना चाहते हैं। उपयोगकर्ता "maxUrls" पैरामीटर का चयन भी कर सकते हैं, जो अधिकतम क्रॉल किए जाने वाले पृष्ठों की संख्या को नियंत्रित करता है, जो 1 से 100 के बीच है, और डिफ़ॉल्ट मान 10 है। इसके अलावा, उपयोगकर्ता चुन सकते हैं कि क्या llms-full.txt उत्पन्न करना है या नहीं, डिफ़ॉल्ट रूप से इसे उत्पन्न नहीं किया जाता है।
यह ध्यान देने योग्य है कि LLMs.txt जेनरेटर का काम अतुल्यकालिक रूप से किया जाता है, उपयोगकर्ता अनुरोध कर सकते हैं और वास्तविक समय में पीढ़ी की स्थिति की निगरानी कर सकते हैं। सिस्टम स्थिति अपडेट प्रदान करेगा, जैसे "प्रगति पर है" या "पूर्ण", ताकि उपयोगकर्ता किसी भी समय प्रगति को समझ सकें।
हालांकि, चूँकि यह वर्तमान में अल्फ़ा चरण में है, इस फ़ंक्शन में कुछ ज्ञात सीमाएँ भी हैं। सबसे पहले, यह केवल सार्वजनिक रूप से सुलभ पृष्ठों का समर्थन करता है, लॉगिन सुरक्षा या पेवॉल सामग्री को संसाधित नहीं किया जा सकता है। दूसरा, अल्फ़ा चरण में, संसाधित वेबसाइटों की संख्या 5000 URL तक सीमित है। इसके अलावा, एक अल्फ़ा सुविधा के रूप में, आउटपुट स्वरूप और प्रसंस्करण प्रक्रिया उपयोगकर्ता प्रतिक्रिया के अनुसार समायोजित की जा सकती है।
शुल्क के संबंध में, LLMs.txt जेनरेटर का उपयोग संसाधित URL की संख्या पर आधारित है, मूल शुल्क प्रति संसाधित URL पर 1 अंक है। उपयोगकर्ता maxUrls पैरामीटर सेट करके लागत को नियंत्रित कर सकते हैं।
प्रवेश द्वार:https://docs.firecrawl.dev/features/alpha/llmstxt
मुख्य बिंदु:
🌐 वेबसाइट URL प्रदान करें, आप LLM के लिए उपयुक्त पाठ फ़ाइलें जल्दी से उत्पन्न कर सकते हैं।
📝 दो पाठ स्वरूप उत्पन्न करें, विभिन्न आवश्यकताओं वाले उपयोगकर्ताओं के लिए उपयोग करने के लिए सुविधाजनक है।
🔒 केवल सार्वजनिक पृष्ठों के प्रसंस्करण का समर्थन करता है, और अल्फ़ा चरण में संख्या की सीमा है।