2024年7月19日,RWKV开源基金会宣布全球开源了RWKV-6-World14B模型,这是目前最强的稠密纯RNN大语言模型。该模型在最新的性能测试中表现优异,英文性能与Llama213B相当,并且在多语言性能上显著领先,支持全球100多种语言和代码。

模型的基准测试包括了4款接近14B参数规模的开源大语言模型,通过12个独立的基准测试评估英语性能,以及xLAMBDA、xStoryCloze、xWinograd和xCopa四种基准测试评估多语言能力。RWKV-6-World14B在这些测试中均表现出色,特别是在“无法作弊的模型评测”Uncheatable Eval排行榜中,综合评测分数超过了llama213B和Qwen1.514B。

微信截图_20240722082902.png

RWKV-6-World14B模型的性能提升得益于从RWKV-4到RWKV-6的架构改进。该模型在训练时没有加入任何基准测试的数据集,避免了特殊优化,因此其实际能力比评分排行更强。Uncheatable Eval评测中,RWKV-6-World14B在7月最新发布的arXiv论文、新闻、ao3小说和GitHub代码等实时数据上进行了评估,显示出其真实的建模能力和泛化能力。

目前,RWKV-6-World14B模型可以通过Hugging Face、ModelScope和WiseModel等平台下载并本地部署。由于Ai00只支持safetensor(.st)格式的模型,也可以在Ai00HF仓库中下载已经转成.st格式的模型。本地部署并推理RWKV-6-World14B模型的显存需求根据量化方式不同,从约10G到28G不等。

RWKV-6-World14B模型的效果预览包括自然语言处理(情感分析、机器阅读理解)、散文诗文学创作、阅读并修改代码、金融学论文选题建议、提取新闻关键内容、一句话扩写文本以及编写Python贪吃蛇小游戏等多个应用场景。

需要注意的是,所有开源发布的RWKV模型均为基底模型,具备一定的指令和对话能力,但未进行特定任务的优化。如果希望RWKV模型在特定任务上表现良好,建议使用相关任务的数据集进行微调训练。

项目地址:

  • Hugging Face:https://huggingface.co/BlinkDL/rwkv-6-world/tree/main

  • ModelScope:https://modelscope.cn/models/RWKV/rwkv-6-world/files

  • WiseModel:https://wisemodel.cn/models/rwkv4fun/Rwkv-6-world/file