A Jina AI lançou dois pequenos modelos de linguagem projetados especificamente para converter conteúdo HTML bruto em um formato Markdown limpo e organizado, eliminando a trabalhosa manipulação de dados da web.
O modelo, chamado Reader-LM, destaca-se por sua capacidade de converter rapidamente e eficientemente o conteúdo da web em arquivos Markdown.
A vantagem é que você não precisa mais depender de regras complexas ou expressões regulares trabalhosas. Esses modelos inteligentemente removem automaticamente o conteúdo desordenado das páginas da web, como anúncios, scripts e barras de navegação, resultando em um formato Markdown claro e organizado.
O Reader-LM oferece dois modelos com diferentes parâmetros: Reader-LM-0.5B e Reader-LM-1.5B. Embora esses modelos não tenham um grande número de parâmetros, eles foram otimizados para a tarefa de conversão de HTML para Markdown, produzindo resultados surpreendentes e superando muitos modelos de linguagem grandes.
Graças ao seu design compacto e eficiente, esses modelos podem funcionar eficientemente mesmo em ambientes com recursos limitados. Ainda mais impressionante é que o Reader-LM suporta vários idiomas e pode processar dados de contexto de até 256K tokens, permitindo o manuseio eficiente de arquivos HTML complexos.
Diferentemente dos métodos tradicionais que dependem de expressões regulares ou configurações manuais, o Reader-LM oferece uma solução ponta a ponta que limpa automaticamente os dados HTML e extrai informações essenciais.
Em testes comparativos com modelos grandes como GPT-4 e Gemini, o Reader-LM demonstrou desempenho superior, especialmente na preservação da estrutura e no uso da sintaxe Markdown. O Reader-LM-1.5B se destacou em todos os indicadores, com uma pontuação ROUGE-L de 0,72, mostrando alta precisão na geração de conteúdo e uma taxa de erro significativamente menor do que produtos semelhantes.
Devido ao seu design compacto, o Reader-LM tem um uso mais leve de recursos de hardware, especialmente o modelo 0.5B, que pode funcionar perfeitamente em ambientes de baixa configuração como o Google Colab. Apesar do seu pequeno tamanho, o Reader-LM ainda possui uma poderosa capacidade de processamento de contexto longo, permitindo o processamento eficiente de conteúdo da web grande e complexo sem afetar o desempenho.
Em termos de treinamento, o Reader-LM utiliza um processo de várias etapas, focando na extração de conteúdo Markdown de HTML bruto e ruidoso.
O processo de treinamento inclui pares de páginas da web reais e dados sintéticos, garantindo a eficiência e precisão do modelo. Através de um treinamento de duas etapas cuidadosamente projetado, o Reader-LM melhorou gradualmente sua capacidade de lidar com arquivos HTML complexos e evitou eficazmente a geração de conteúdo repetido.
Apresentação oficial: https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/