promptbench
统一的语言模型评估框架
普通产品编程基准评估
PromptBench是一个基于Pytorch的Python包,用于评估大型语言模型(LLM)。它为研究人员提供了用户友好的API,以便对LLM进行评估。主要功能包括:快速模型性能评估、提示工程、对抗提示评估以及动态评估等。优势是使用简单,可以快速上手评估已有数据集和模型,也可以轻松定制自己的数据集和模型。定位为LLM评估的统一开源库。
promptbench 最新流量情况
月总访问量
488643166
跳出率
37.28%
平均页面访问数
5.7
平均访问时长
00:06:37