Jina AI a lancé deux petits modèles linguistiques spécialement conçus pour convertir du contenu HTML brut en Markdown propre et organisé, nous libérant ainsi de la fastidieuse tâche de traitement des données web.
Ce modèle, appelé Reader-LM, se distingue par sa capacité à convertir rapidement et efficacement le contenu web en fichiers Markdown.
Son avantage réside dans le fait que vous n'avez plus besoin de règles complexes ou d'expressions régulières fastidieuses. Ces modèles intelligents éliminent automatiquement le contenu encombrant des pages web, tels que les publicités, les scripts et les barres de navigation, pour ne présenter qu'un Markdown clair et organisé.
Reader-LM propose deux modèles avec des paramètres différents : Reader-LM-0.5B et Reader-LM-1.5B. Bien que ces modèles n'aient pas un nombre de paramètres énorme, ils sont optimisés pour la conversion HTML en Markdown, et les résultats sont surprenants, surpassant de nombreux grands modèles linguistiques.
Grâce à sa conception compacte, ces modèles fonctionnent efficacement même dans des environnements aux ressources limitées. Plus remarquable encore, Reader-LM prend en charge plusieurs langues et peut traiter des contextes jusqu'à 256 000 jetons, permettant de gérer facilement même les fichiers HTML complexes.
Contrairement aux méthodes traditionnelles qui reposent sur des expressions régulières ou une configuration manuelle, Reader-LM offre une solution de bout en bout qui nettoie automatiquement les données HTML et extrait les informations clés.
Lors de tests comparatifs avec des grands modèles tels que GPT-4 et Gemini, Reader-LM a démontré d'excellentes performances, notamment en termes de préservation de la structure et d'utilisation de la syntaxe Markdown. Reader-LM-1.5B se distingue particulièrement par ses résultats, avec un score ROUGE-L de 0,72, témoignant de sa grande précision dans la génération de contenu et d'un taux d'erreur significativement inférieur à celui des produits concurrents.
En raison de sa conception compacte, Reader-LM est plus léger en termes d'occupation des ressources matérielles, en particulier le modèle 0.5B, qui peut fonctionner sans problème dans des environnements peu performants comme Google Colab. Malgré sa petite taille, Reader-LM possède une puissante capacité de traitement de longs contextes, permettant de gérer efficacement des contenus web volumineux et complexes sans compromettre les performances.
En termes d'entraînement, Reader-LM utilise un processus en plusieurs étapes, axé sur l'extraction de contenu Markdown à partir de HTML brut et bruité.
Le processus d'entraînement comprend de nombreuses paires de données web réelles et synthétiques, garantissant l'efficacité et la précision du modèle. Grâce à un entraînement en deux étapes soigneusement conçu, Reader-LM a progressivement amélioré sa capacité à traiter des fichiers HTML complexes et a efficacement évité les problèmes de génération redondante.
Présentation officielle : https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/