ReaderLM v2, desarrollado por Jina AI, es un modelo de lenguaje pequeño de 1.5B de parámetros, especializado en la conversión de HTML a Markdown y la extracción de HTML a JSON, con una precisión excepcional. Este modelo admite 29 idiomas y puede manejar longitudes de entrada y salida combinadas de hasta 512K tokens. Emplea un nuevo paradigma de entrenamiento y datos de entrenamiento de mayor calidad, mostrando mejoras significativas en el manejo de textos largos y la generación de sintaxis Markdown en comparación con su predecesor. Domina la sintaxis Markdown y sobresale en la generación de elementos complejos. Además, ReaderLM v2 incorpora la función de generación directa de HTML a JSON, permitiendo a los usuarios extraer información específica del HTML original según un esquema JSON dado, eliminando la necesidad de conversión intermedia a Markdown.