Récemment, Firecrawl a lancé une nouvelle fonctionnalité : l’interface de génération LLMs.txt (version Alpha), conçue pour aider les utilisateurs à convertir le contenu de n’importe quel site web en fichiers texte clairs et adaptés à l’entraînement des grands modèles linguistiques (LLM). Il suffit de fournir l’URL d’un site web, et Firecrawl extraira le contenu de ce site et de ses pages liées pour générer deux formats de fichiers texte : llms.txt et llms-full.txt, facilitant ainsi l’analyse et l’entraînement ultérieurs.

QQ_1741571298119.png

Le processus de génération est relativement simple. L’utilisateur fournit une URL, et le système extrait automatiquement le contenu du site web, en extrayant des informations textuelles propres et significatives. Les fichiers générés sont de deux types : llms.txt est un résumé concis du contenu du site web, contenant les informations clés ; llms-full.txt est le contenu textuel complet plus détaillé, adapté aux utilisateurs qui ont besoin d’une analyse approfondie.

Lors de l’utilisation, les utilisateurs peuvent définir certains paramètres clés. Tout d’abord, « url », c’est-à-dire l’URL pour laquelle vous souhaitez générer le fichier LLMs.txt. Les utilisateurs peuvent également choisir le paramètre « maxUrls » pour contrôler le nombre maximal de pages à extraire, compris entre 1 et 100, la valeur par défaut étant 10. De plus, les utilisateurs peuvent choisir de générer ou non llms-full.txt, la valeur par défaut étant de ne pas le générer.

Il est important de noter que la génération de LLMs.txt est asynchrone. Les utilisateurs peuvent envoyer une requête et surveiller l’état de la génération en temps réel. Le système fournira des mises à jour d’état, telles que « en cours » ou « terminé », pour permettre aux utilisateurs de suivre facilement l’avancement.

Cependant, étant donné qu’il s’agit d’une version Alpha, cette fonctionnalité présente certaines limitations connues. Tout d’abord, seuls les pages accessibles publiquement sont prises en charge ; le contenu protégé par un mot de passe ou un paywall ne peut pas être traité. Ensuite, en phase Alpha, le nombre de sites web traités est limité à 5000 URL. De plus, en tant que fonctionnalité Alpha, le format de sortie et le processus de traitement peuvent être ajustés en fonction des commentaires des utilisateurs.

En termes de facturation, l’utilisation du générateur LLMs.txt est basée sur le nombre d’URL traitées, le coût de base étant de 1 point par URL traitée. Les utilisateurs peuvent contrôler les coûts en définissant le paramètre maxUrls.

Accès : https://docs.firecrawl.dev/features/alpha/llmstxt

Points importants :

🌐 Fournissez l’URL d’un site web pour générer rapidement des fichiers texte adaptés aux LLM.

📝 Génération de deux formats de texte pour répondre aux différents besoins des utilisateurs.

🔒 Prise en charge uniquement des pages publiques, avec une limite de quantité en phase Alpha.