Jina AIは、生のHTMLコンテンツをクリーンで整然としたMarkdown形式に変換するために設計された、2つの小型言語モデルを発表しました。これにより、面倒なウェブデータ処理から解放されます。
Reader-LMと呼ばれるこのモデルの最大の特徴は、ウェブコンテンツをMarkdownファイルに迅速かつ効率的に変換できる点です。
複雑なルールや手間のかかる正規表現に頼る必要がなくなる点が利点です。これらのモデルは、広告、スクリプト、ナビゲーションバーなど、ウェブページの雑然としたコンテンツを自動的に賢く削除し、整理されたMarkdown形式で出力します。
Reader-LMは、Reader-LM-0.5BとReader-LM-1.5Bという2つの異なるパラメーターを持つモデルを提供しています。これらのモデルのパラメーター数はそれほど大きくありませんが、HTMLからMarkdownへの変換タスク向けに最適化されており、驚くべき結果を示し、多くの大型言語モデルを凌駕しています。
コンパクトな設計により、これらのモデルはリソースの限られた環境でも効率的に動作します。さらに素晴らしいことに、Reader-LMは複数の言語に対応し、最大256Kトークンのコンテキストデータを処理できるため、複雑なHTMLファイルでも容易に処理できます。
正規表現に依存したり、手動で設定する従来の方法とは異なり、Reader-LMは、HTMLデータを自動的にクリーンアップし、重要な情報を抽出するエンドツーエンドのソリューションを提供します。
GPT-4やGeminiなどの大型モデルとの比較テストで、Reader-LMは優れた性能を示し、特に構造の保持とMarkdown構文の使用において顕著です。Reader-LM-1.5Bは、すべての指標で特に優れた性能を示し、ROUGE-Lスコアは0.72に達し、コンテンツ生成時の高精度と、同類製品よりも大幅に低いエラー率を示しています。
Reader-LMのコンパクトな設計により、ハードウェアのリソース消費が少なく、特に0.5Bモデルは、Google Colabなどの低スペック環境でもスムーズに動作します。小型であるにもかかわらず、Reader-LMは強力なロングコンテキスト処理能力を備えており、膨大で複雑なウェブコンテンツを効率的に処理できます。
トレーニングにおいて、Reader-LMは多段階のプロセスを採用し、ノイズの多い生のHTMLからMarkdownコンテンツを抽出することに重点を置いています。
トレーニングプロセスには、大量の実際のウェブページと合成データのペアが含まれており、モデルの高効率性と正確性を保証しています。綿密に設計された2段階のトレーニングにより、Reader-LMは複雑なHTMLファイルの処理能力を段階的に向上させ、重複した生成の問題を効果的に回避しています。
公式紹介:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/