Recentemente, a Firecrawl lançou um novo recurso — a interface geradora de LLMs.txt (versão Alpha), projetada para ajudar os usuários a converter o conteúdo de qualquer site em arquivos de texto limpos e adequados para treinamento de modelos de linguagem grandes (LLMs). Os usuários precisam apenas fornecer a URL de um site, e a Firecrawl rastreará esse site e suas páginas vinculadas, gerando dois tipos de arquivos de texto: llms.txt e llms-full.txt, para facilitar a análise e o treinamento subsequentes.
O fluxo de trabalho do gerador é relativamente simples. Os usuários precisam apenas fornecer um URL, e o sistema rastreará automaticamente o conteúdo do site, extraindo informações de texto limpas e significativas. Os arquivos gerados são de dois tipos: llms.txt é um resumo conciso do conteúdo do site, contendo informações-chave; enquanto llms-full.txt é o conteúdo de texto completo mais detalhado, adequado para usuários que precisam de análise aprofundada.
Durante o uso, os usuários podem configurar alguns parâmetros-chave. O primeiro é "url", ou seja, o URL para o qual se deseja gerar o arquivo LLMs.txt. Os usuários também podem selecionar o parâmetro "maxUrls" para controlar o número máximo de páginas rastreadas, variando de 1 a 100, com um valor padrão de 10. Além disso, os usuários podem optar por gerar ou não o llms-full.txt, que por padrão não é gerado.
Vale ressaltar que o trabalho do gerador LLMs.txt é assíncrono, e os usuários podem enviar solicitações e monitorar o status de geração em tempo real. O sistema fornecerá atualizações de status, como "em andamento" ou "concluído", para que os usuários possam acompanhar o progresso a qualquer momento.
No entanto, como está atualmente na fase Alpha, este recurso apresenta algumas limitações conhecidas. Primeiro, ele suporta apenas páginas acessíveis publicamente; conteúdo protegido por login ou paywall não pode ser processado. Segundo, na fase Alpha, o número máximo de sites processados é de 5000 URLs. Além disso, como um recurso Alpha, o formato de saída e o fluxo de processamento podem ser ajustados com base no feedback do usuário.
Em termos de cobrança, o custo do uso do gerador LLMs.txt é baseado no número de URLs processados, com um custo básico de 1 ponto por URL processado. Os usuários podem controlar os custos configurando o parâmetro maxUrls.
Acesso: https://docs.firecrawl.dev/features/alpha/llmstxt
Destaques:
🌐 Forneça a URL do site para gerar rapidamente arquivos de texto adequados para LLM.
📝 Gera dois formatos de texto, facilitando a escolha para diferentes necessidades dos usuários.
🔒 Suporta apenas o processamento de páginas públicas, e há uma limitação de quantidade na fase Alpha.