Jina AI ha lanzado dos pequeños modelos de lenguaje diseñados específicamente para convertir contenido HTML sin procesar en un formato Markdown limpio y ordenado, liberándonos de la tediosa tarea de procesamiento de datos web.

Este modelo, llamado Reader-LM, destaca por su capacidad para convertir rápidamente y eficientemente el contenido web en archivos Markdown.

image.png

Su principal ventaja es que ya no necesitas depender de reglas complejas o engorrosas expresiones regulares. Estos modelos eliminan inteligentemente el contenido desordenado de las páginas web, como anuncios, scripts y barras de navegación, presentando finalmente un formato Markdown claro y conciso.

Reader-LM ofrece dos modelos con diferentes parámetros: Reader-LM-0.5B y Reader-LM-1.5B. Aunque la cantidad de parámetros de estos dos modelos no es enorme, están optimizados para la tarea de convertir HTML a Markdown, ofreciendo resultados sorprendentes y superando a muchos modelos de lenguaje grandes.

image.png

Gracias a su diseño compacto y eficiente, estos modelos funcionan eficazmente incluso en entornos con recursos limitados. Más aún, Reader-LM no solo admite múltiples idiomas, sino que también puede procesar datos de contexto de hasta 256K tokens, lo que permite manejar incluso archivos HTML complejos con facilidad.

A diferencia de los métodos tradicionales que dependen de expresiones regulares o configuraciones manuales, Reader-LM ofrece una solución integral que limpia automáticamente los datos HTML y extrae la información clave.

image.png

En las pruebas comparativas con modelos grandes como GPT-4 y Gemini, Reader-LM ha demostrado un rendimiento excelente, especialmente en la preservación de la estructura y el uso de la sintaxis Markdown. Reader-LM-1.5B destaca en todos los indicadores, con una puntuación ROUGE-L de 0.72, lo que demuestra su alta precisión en la generación de contenido y una tasa de error significativamente menor que la de productos similares.

Debido a su diseño compacto, Reader-LM tiene un consumo de recursos de hardware mucho menor, especialmente el modelo 0.5B, que puede funcionar sin problemas en entornos de baja configuración como Google Colab. A pesar de su pequeño tamaño, Reader-LM conserva una potente capacidad de procesamiento de contextos largos, pudiendo gestionar eficientemente contenido web complejo y extenso sin afectar al rendimiento.

image.png

En cuanto al entrenamiento, Reader-LM utiliza un proceso multietapa, centrándose en la extracción de contenido Markdown a partir de HTML sin procesar y con mucho ruido.

El proceso de entrenamiento incluye un gran número de pares de páginas web reales y datos sintéticos, lo que garantiza la eficiencia y precisión del modelo. Gracias a un entrenamiento de dos etapas cuidadosamente diseñado, Reader-LM ha mejorado gradualmente su capacidad para procesar archivos HTML complejos y ha evitado eficazmente la generación de contenido repetido.

Presentación oficial: https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/