Firecrawl hat kürzlich eine neue Funktion eingeführt – die LLMs.txt-Generator-Schnittstelle (Alpha-Version) –, die Benutzern helfen soll, Inhalte beliebiger Websites in übersichtliche Textdateien umzuwandeln, die für das Training großer Sprachmodelle (LLMs) geeignet sind. Benutzer müssen lediglich die URL einer Website angeben. Firecrawl crawlt dann die Website und deren verlinkte Seiten und generiert zwei Arten von Textdateien: llms.txt und llms-full.txt, die für die spätere Analyse und das Training verwendet werden können.
Der Arbeitsablauf des Generators ist relativ einfach. Der Benutzer gibt einfach eine URL an, und das System crawlt automatisch den Inhalt der Website und extrahiert saubere und aussagekräftige Textinformationen. Die generierten Dateien gibt es in zwei Varianten: llms.txt ist eine prägnante Zusammenfassung des Website-Inhalts mit den wichtigsten Informationen; llms-full.txt hingegen enthält den vollständigen Text und ist für Benutzer gedacht, die eine detaillierte Analyse benötigen.
Während der Nutzung können Benutzer einige wichtige Parameter einstellen. Erstens „url“, also die URL, für die die LLMs.txt-Datei generiert werden soll. Benutzer können auch den Parameter „maxUrls“ auswählen, um die maximale Anzahl der zu crawlen Seiten zu steuern (zwischen 1 und 100, Standardwert 10). Außerdem können Benutzer auswählen, ob llms-full.txt generiert werden soll (Standardmäßig nicht).
Es ist zu beachten, dass der LLMs.txt-Generator asynchron arbeitet. Benutzer können Anfragen stellen und den Generierungsstatus in Echtzeit überwachen. Das System liefert Statusaktualisierungen wie „Wird verarbeitet“ oder „Abgeschlossen“, damit Benutzer den Fortschritt jederzeit verfolgen können.
Da sich die Funktion jedoch noch in der Alpha-Phase befindet, gibt es einige bekannte Einschränkungen. Erstens werden nur öffentlich zugängliche Seiten unterstützt; Inhalte hinter Login-Schutz oder Paywalls können nicht verarbeitet werden. Zweitens ist die Anzahl der zu verarbeitenden Websites in der Alpha-Phase auf 5000 URLs begrenzt. Darüber hinaus können sich das Ausgabeformat und der Verarbeitungsprozess als Alpha-Feature aufgrund von Benutzerfeedback ändern.
Die Kosten für die Nutzung des LLMs.txt-Generators basieren auf der Anzahl der verarbeiteten URLs. Die Grundgebühr beträgt 1 Punkt pro verarbeiteter URL. Benutzer können die Kosten durch Einstellen des Parameters „maxUrls“ steuern.
Zugang: https://docs.firecrawl.dev/features/alpha/llmstxt
Wichtigste Punkte:
🌐 Geben Sie die Website-URL an, um schnell Textdateien für LLM zu generieren.
📝 Es werden zwei Textformate generiert, damit Benutzer je nach Bedarf auswählen können.
🔒 Nur öffentlich zugängliche Seiten werden unterstützt, und in der Alpha-Phase gibt es eine Mengenbegrenzung.