O ReaderLM v2, lançado pela Jina AI, é um modelo de linguagem pequeno com 1,5 bilhão de parâmetros, projetado especificamente para conversão de HTML para Markdown e extração de HTML para JSON, com precisão excepcional. O modelo suporta 29 idiomas e consegue lidar com comprimentos combinados de entrada e saída de até 512K tokens. Ele utiliza um novo paradigma de treinamento e dados de treinamento de maior qualidade, apresentando melhorias significativas em relação à geração anterior no processamento de textos longos e na geração de sintaxe Markdown, com domínio da sintaxe Markdown e habilidade em gerar elementos complexos. Além disso, o ReaderLM v2 introduziu a funcionalidade de geração direta de HTML para JSON, permitindo que os usuários extraiam informações específicas do HTML original com base em um esquema JSON fornecido, eliminando a necessidade de conversão intermediária para Markdown.