Jina AIは、生のHTMLコンテンツをクリーンで整然としたMarkdown形式に変換するために設計された、2つの小型言語モデルを発表しました。これにより、面倒なウェブデータ処理から解放されます。

Reader-LMと呼ばれるこのモデルの最大の特徴は、ウェブコンテンツをMarkdownファイルに迅速かつ効率的に変換できる点です。

image.png

複雑なルールや手間のかかる正規表現に頼る必要がなくなる点が利点です。これらのモデルは、広告、スクリプト、ナビゲーションバーなど、ウェブページの雑然としたコンテンツを自動的に賢く削除し、整理されたMarkdown形式で出力します。

Reader-LMは、Reader-LM-0.5BとReader-LM-1.5Bという2つの異なるパラメーターを持つモデルを提供しています。これらのモデルのパラメーター数はそれほど大きくありませんが、HTMLからMarkdownへの変換タスク向けに最適化されており、驚くべき結果を示し、多くの大型言語モデルを凌駕しています。

image.png

コンパクトな設計により、これらのモデルはリソースの限られた環境でも効率的に動作します。さらに素晴らしいことに、Reader-LMは複数の言語に対応し、最大256Kトークンのコンテキストデータを処理できるため、複雑なHTMLファイルでも容易に処理できます。

正規表現に依存したり、手動で設定する従来の方法とは異なり、Reader-LMは、HTMLデータを自動的にクリーンアップし、重要な情報を抽出するエンドツーエンドのソリューションを提供します。

image.png

GPT-4やGeminiなどの大型モデルとの比較テストで、Reader-LMは優れた性能を示し、特に構造の保持とMarkdown構文の使用において顕著です。Reader-LM-1.5Bは、すべての指標で特に優れた性能を示し、ROUGE-Lスコアは0.72に達し、コンテンツ生成時の高精度と、同類製品よりも大幅に低いエラー率を示しています。

Reader-LMのコンパクトな設計により、ハードウェアのリソース消費が少なく、特に0.5Bモデルは、Google Colabなどの低スペック環境でもスムーズに動作します。小型であるにもかかわらず、Reader-LMは強力なロングコンテキスト処理能力を備えており、膨大で複雑なウェブコンテンツを効率的に処理できます。

image.png

トレーニングにおいて、Reader-LMは多段階のプロセスを採用し、ノイズの多い生のHTMLからMarkdownコンテンツを抽出することに重点を置いています。

トレーニングプロセスには、大量の実際のウェブページと合成データのペアが含まれており、モデルの高効率性と正確性を保証しています。綿密に設計された2段階のトレーニングにより、Reader-LMは複雑なHTMLファイルの処理能力を段階的に向上させ、重複した生成の問題を効果的に回避しています。

公式紹介:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/