最近、FirecrawlはLLMトレーニングに適したテキストファイルを作成する新しい機能、LLMs.txtジェネレーターインターフェース(アルファ版)をリリースしました。ユーザーはウェブサイトのURLを入力するだけで、Firecrawlがそのウェブサイトとそのリンク先ページをクロールし、llms.txtとllms-full.txtの2種類のテキストファイルを出力します。これにより、後の分析やトレーニングが容易になります。

QQ_1741571298119.png

ジェネレーターのワークフローは比較的シンプルです。ユーザーはURLを入力するだけで、システムが自動的にウェブサイトの内容をクロールし、クリーンで意味のあるテキスト情報を抽出します。生成されるファイルは2種類あります。llms.txtはウェブサイトの内容を簡潔にまとめたもので、重要な情報が含まれています。一方、llms-full.txtはより詳細な完全なテキスト内容で、詳細な分析が必要なユーザーに適しています。

使用時には、いくつかの重要なパラメーターを設定できます。「url」は、LLMs.txtファイルを作成したいウェブサイトのURLです。「maxUrls」パラメーターを選択して、クロールするページの最大数を1~100の範囲で制御できます(デフォルトは10)。さらに、llms-full.txtを生成するかどうかを選択できます(デフォルトは生成しません)。

LLMs.txtジェネレーターは非同期で動作するため、ユーザーはリクエストを送信し、生成状況をリアルタイムで監視できます。システムは「処理中」や「完了」などのステータス更新を提供し、ユーザーはいつでも進捗状況を把握できます。

ただし、現在アルファ版であるため、いくつかの既知の制限があります。まず、公開アクセス可能なページのみサポートし、ログイン保護や有料コンテンツは処理できません。次に、アルファ版では、処理できるウェブサイト数は最大5000 URLに制限されています。さらに、アルファ機能であるため、出力形式と処理手順はユーザーのフィードバックに基づいて調整される可能性があります。

料金は処理したURLの数に基づいており、基本料金はURL 1つにつき1ポイントの消費です。「maxUrls」パラメーターで費用を管理できます。

アクセス方法: https://docs.firecrawl.dev/features/alpha/llmstxt

要点:

🌐 ウェブサイトのURLを入力するだけで、LLMに適したテキストファイルをすばやく生成できます。

📝 2種類のテキスト形式を生成し、さまざまなニーズを持つユーザーが選択して使用できます。

🔒 公開ページのみサポートし、アルファ版では数量制限があります。