OpenAI 的新系统在最近的评估中取得了出色的成绩,夺得了聊天机器人排名的第一名。但是,由于评分数量较低,这可能会扭曲评估结果。

QQ20240920-103932.png

根据发布的概述,这些新系统在所有评估类别中都表现出色,包括整体性能、安全性和技术能力。其中一款专门用于STEM任务的系统与9月初发布的GPT-4o版本一起短暂排名第二,并在技术领域占据领先地位。

Chatbot Arena是一个用于比较不同系统的平台,使用超过6,000个社区评分对新系统进行了评估。结果表明,这些新系统在数学任务、复杂提示和编程方面表现优异。

QQ20240920-103553.png

然而,这些新系统获得的评分远低于其他成熟系统,如GPT-4o或Anthropic的Claude3.5,每个系统的评论数均不到3,000条。如此小的样本量可能会扭曲评估并限制结果的重要性。

OpenAI 的新系统在数学和编码方面表现出色,这是其设计的主要目标。通过在回答之前“思考”更长时间,这些系统旨在为AI推理树立新标准。然而,这些系统并非在所有领域都胜过其他系统。许多任务不需要复杂的逻辑推理,有时其他系统的快速响应就足够了。

Lmsys关于数学模型强度的图表清楚地显示,这些新系统的得分超过1360,远高于其他系统的性能。