在人工智能的世界里,高考不再只是人类的舞台。最近,上海人工智能实验室用一场别开生面的“高考”,让我们见证了AI的学术实力。他们采用了OpenCompass评测体系,让包括GPT-4o在内的7个AI模型,接受了语文、数学和英语的全面能力测试。

2_1718848649312_ai2023_A_large_classroom_filled_with_rows_of_robots_sitting_at__db532bea-895e-4609-b80c-5fedf4ecf846.png

图源备注:图片由AI生成,图片授权服务商Midjourney

这场测试采用的是全国新课标I卷,确保了所有参与的开源模型都是在高考前就已经开源,保证了测试的公正性。而且,这些AI的“答卷”是由有高考评卷经验的教师人工评判的,力求接近真实的阅卷标准。

参与评测的模型来自不同的背景,有法国AI创业公司Mistral开源的Mixtral8x22B对话模型,零一万物公司的Yi-1.5-34B,智谱AI的GLM-4-9B,上海人工智能实验室的InternLM2-20B-WQX,以及阿里巴巴的Qwen2系列。GPT-4o作为闭源模型参与评测,仅作为参考。

image.png

成绩揭晓,Qwen2-72B以303分的总分位列第一,GPT-4o以296分紧随其后,InternLM2-20B-WQX则以295.5分位列第三。这些模型在语文和英语科目上表现不俗,语文平均得分率达到了67%,英语更是高达81%。然而,在数学科目上,所有模型的平均得分率仅为36%,显示出AI在数学推理方面还有很大的提升空间。

阅卷教师对AI模型的答卷进行了全面分析。在语文科目中,模型们普遍阅读理解现代文较为得心应手,但在文言文和作文上则稍显不足。数学方面,模型们的公式记忆能力虽强,但在解题过程中的灵活运用上还有欠缺。英语科目整体表现良好,但在某些题型上,部分模型的得分率较低。

这次“大模型高考”不仅让我们看到了AI在学术领域的潜力,也揭示了它们在理解和应用知识上的局限性。随着技术的不断进步,我们有理由相信,未来的AI将变得更加聪明,更好地服务于人类社会。