Jina AI 发布革命性小模型，轻松将HTML转为优雅 Markdown！

Jina AI 推出了两款专门为将原始 HTML 内容转化为干净整洁的 Markdown 格式而设计的小型语言模型，让我们摆脱琐的网页数据处理。

这款名为 Reader-LM 的模型，最大的亮点在于它能够快速且高效地将网页内容转换为 Markdown 文件。

使用它的好处在于，你不再需要依赖复杂的规则或者费力的正则表达式。这些模型聪明地自动剔除了网页中的杂乱内容，比如广告、脚本和导航栏，最终呈现出条理清晰的 Markdown 格式。

Reader-LM 提供了两个不同参数的模型，分别是 Reader-LM-0.5B 和 Reader-LM-1.5B。虽然这两个模型的参数量不算庞大，但它们针对 HTML 转 Markdown 的任务进行了优化，结果令人惊喜，表现超越了许多大型语言模型。

得益于其小巧精悍的设计，这些模型在资源受限的环境中也能高效运行。更令人称道的是，Reader-LM 不仅支持多种语言，还能处理长达256K tokens 的上下文数据，使得即使是复杂的 HTML 文件也能游刃有余。

与传统的需要依赖正则表达式或手动设置的方式不同，Reader-LM 提供了一个端到端的解决方案，能够自动清理 HTML 数据并提取出关键信息。

通过与 GPT-4和 Gemini 等大型模型的对比测试，Reader-LM 展现出了优异的性能，特别是在结构保留和 Markdown 语法使用方面。Reader-LM-1.5B 在各项指标上表现尤为突出，ROUGE-L 分数高达0.72，显示出它在生成内容时的高准确性，错误率也显著低于同类产品。

由于 Reader-LM 的紧凑设计，它在硬件资源占用上更为轻便，尤其是0.5B 模型，可以在像 Google Colab 这样的低配置环境中流畅运行。尽管体量小，Reader-LM 依旧具备强大的长上下文处理能力，能够高效处理庞大复杂的网页内容而不影响性能。

在训练方面，Reader-LM 采用了多阶段的流程，专注于从原始且噪声较多的 HTML 中提取出 Markdown 内容。

训练过程包括大量真实网页和合成数据的配对，确保了模型的高效性和准确性。经过精心设计的两阶段训练，Reader-LM 逐步提升了对复杂 HTML 文件的处理能力，并有效避免了重复生成的问题。

官方介绍：https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/

AI新闻资讯