Jina AI hat zwei kleine Sprachmodelle vorgestellt, die speziell für die Umwandlung von rohem HTML-Inhalt in sauberes Markdown-Format entwickelt wurden und uns die mühsame Verarbeitung von Webdaten ersparen.

Das Modell namens Reader-LM zeichnet sich vor allem durch seine Geschwindigkeit und Effizienz bei der Umwandlung von Webseiteninhalten in Markdown-Dateien aus.

image.png

Der Vorteil liegt darin, dass Sie nicht mehr auf komplexe Regeln oder mühsame reguläre Ausdrücke angewiesen sind. Diese Modelle entfernen intelligent unnötige Inhalte von Webseiten, wie z. B. Werbung, Skripte und Navigationsleisten, und liefern ein übersichtliches Markdown-Format.

Reader-LM bietet zwei Modelle mit unterschiedlichen Parametern an: Reader-LM-0.5B und Reader-LM-1.5B. Obwohl die Parameteranzahl dieser beiden Modelle nicht riesig ist, wurden sie für die Aufgabe der HTML-zu-Markdown-Konvertierung optimiert, und die Ergebnisse sind überraschend gut und übertreffen viele große Sprachmodelle.

image.png

Dank ihres kompakten Designs laufen diese Modelle auch in ressourcenbeschränkten Umgebungen effizient. Besonders hervorzuheben ist, dass Reader-LM nicht nur mehrere Sprachen unterstützt, sondern auch Kontextdaten mit bis zu 256K Tokens verarbeiten kann, sodass selbst komplexe HTML-Dateien problemlos bewältigt werden können.

Im Gegensatz zu herkömmlichen Methoden, die auf reguläre Ausdrücke oder manuelle Einstellungen angewiesen sind, bietet Reader-LM eine End-to-End-Lösung, die HTML-Daten automatisch bereinigt und wichtige Informationen extrahiert.

image.png

Vergleichstests mit großen Modellen wie GPT-4 und Gemini zeigen die hervorragende Leistung von Reader-LM, insbesondere in Bezug auf die Beibehaltung der Struktur und die Verwendung der Markdown-Syntax. Reader-LM-1.5B schneidet in allen Metriken besonders gut ab, mit einem ROUGE-L-Score von 0,72, was seine hohe Genauigkeit bei der Generierung von Inhalten und eine deutlich geringere Fehlerquote im Vergleich zu Konkurrenzprodukten zeigt.

Aufgrund des kompakten Designs von Reader-LM ist der Hardware-Ressourcenverbrauch geringer, insbesondere das 0.5B-Modell läuft problemlos in Umgebungen mit geringen Ressourcen wie Google Colab. Trotz seiner geringen Größe verfügt Reader-LM über eine starke Fähigkeit zur Verarbeitung langer Kontexte und kann große und komplexe Webseiteninhalte effizient verarbeiten, ohne die Leistung zu beeinträchtigen.

image.png

Beim Training verwendet Reader-LM einen mehrstufigen Prozess, der sich darauf konzentriert, Markdown-Inhalte aus rohem und verrauschtem HTML zu extrahieren.

Der Trainingsprozess umfasst viele Paarungen aus realen Webseiten und synthetischen Daten, um die Effizienz und Genauigkeit des Modells zu gewährleisten. Durch ein sorgfältig entwickeltes zweistufiges Training verbessert Reader-LM schrittweise seine Fähigkeit, komplexe HTML-Dateien zu verarbeiten, und vermeidet effektiv redundante Generierungen.

Offizielle Einführung: https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/