Jina AI 推出了两款专门为将原始 HTML 内容转化为干净整洁的 Markdown 格式而设计的小型语言模型,让我们摆脱琐的网页数据处理。

这款名为 Reader-LM 的模型,最大的亮点在于它能够快速且高效地将网页内容转换为 Markdown 文件。

image.png

使用它的好处在于,你不再需要依赖复杂的规则或者费力的正则表达式。这些模型聪明地自动剔除了网页中的杂乱内容,比如广告、脚本和导航栏,最终呈现出条理清晰的 Markdown 格式。

Reader-LM 提供了两个不同参数的模型,分别是 Reader-LM-0.5B 和 Reader-LM-1.5B。虽然这两个模型的参数量不算庞大,但它们针对 HTML 转 Markdown 的任务进行了优化,结果令人惊喜,表现超越了许多大型语言模型。

image.png

得益于其小巧精悍的设计,这些模型在资源受限的环境中也能高效运行。更令人称道的是,Reader-LM 不仅支持多种语言,还能处理长达256K tokens 的上下文数据,使得即使是复杂的 HTML 文件也能游刃有余。

与传统的需要依赖正则表达式或手动设置的方式不同,Reader-LM 提供了一个端到端的解决方案,能够自动清理 HTML 数据并提取出关键信息。

image.png

通过与 GPT-4和 Gemini 等大型模型的对比测试,Reader-LM 展现出了优异的性能,特别是在结构保留和 Markdown 语法使用方面。Reader-LM-1.5B 在各项指标上表现尤为突出,ROUGE-L 分数高达0.72,显示出它在生成内容时的高准确性,错误率也显著低于同类产品。

由于 Reader-LM 的紧凑设计,它在硬件资源占用上更为轻便,尤其是0.5B 模型,可以在像 Google Colab 这样的低配置环境中流畅运行。尽管体量小,Reader-LM 依旧具备强大的长上下文处理能力,能够高效处理庞大复杂的网页内容而不影响性能。

image.png

在训练方面,Reader-LM 采用了多阶段的流程,专注于从原始且噪声较多的 HTML 中提取出 Markdown 内容。

训练过程包括大量真实网页和合成数据的配对,确保了模型的高效性和准确性。经过精心设计的两阶段训练,Reader-LM 逐步提升了对复杂 HTML 文件的处理能力,并有效避免了重复生成的问题。

官方介绍:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/