纽约人工智能创业公司 Arthur 发布了开源工具 ArthurBench,用于评估和比较大型语言模型的性能。ArthurBench 可以帮助企业在特定用例上测试不同语言模型的性能,并提供准确性、可读性、避险等指标进行比较。已有金融服务公司、车辆制造商和媒体平台等企业开始使用 ArthurBench,加快了分析和提供更准确的答案。