Anthropic的最新模型Claude3.5Sonnet在最近的技术评测中展现了令人瞩目的性能,其表现甚至超过了专业博士水平。在Graduate-Level Question Answering(GPQA)测试中,Claude3.5Sonnet取得了67.2%的得分,这不仅是大语言模型在此类评估中首次突破65%的成绩,而且标志着它在理解和回答高级科学知识问题上达到了新的高度。

GQrRBTfa0AAwXFe.jpg

GPQA作为一个衡量语言模型在研究生层级科学知识问答能力的基准测试,涵盖了一系列复杂且深奥的问题,对模型的推理能力和知识整合能力提出了较高的要求。在这一挑战性测试中,普通博士学位持有者的平均得分约为34%,而专门领域的博士学位持有者平均得分为65%。值得一提的是,GPQA得分达到60%的语言模型,其智能水平大约相当于IQ150。

GQrRofibYAAK9Mx.jpg

尽管目前尚无GPT-4o和GPT-4T在GPQA评估中的具体数据,但根据现有信息推测,Claude3.5Sonnet的表现似乎优于这两个模型。在其他相关评估中,如0-shot CoT评估,Claude3.5Sonnet的得分也高于GPT-4o(53.6%)和GPT-4T(48.0%),进一步证明了其在语言理解和问题解答方面的领先地位。

Anthropic的这一成就不仅展示了Claude3.5Sonnet的强大能力,也为大语言模型在处理高级知识问答任务上树立了新的标杆。随着技术的不断进步,未来这些模型在各个领域的应用潜力无疑将更加广阔。