在2024年的高考季,九款AI大模型勇敢地迎接了一项前所未有的挑战——参加高考,特别是难度极高的新课标Ⅰ卷:河南卷。这场由媒体发起的测试,不仅检验了AI在学术领域的能力,也为我们提供了一个观察AI与人类智能差异的独特视角。

1.jpg

在参与测试的9个AI中,有4个AI的成绩超过了河南高考的一本线。GPT-4o以562分的高分夺得第一名,超过了一本线41分,而字节跳动的豆包以542.5分紧随其后,成为国内模型中的佼佼者。

机器人参加考试 机器人高考

图源备注:图片由AI生成,图片授权服务商Midjourney

AI在文科科目中表现出色,尤其是在语文和英语科目上,而在理科科目,尤其是数学上,表现则不尽如人意。可以看到AI在语言类科目上展现出了明显的优势,古诗文理解能力令人印象深刻。

在简单推理题上AI表现尚可,但在需要复杂推导和证明的题目上则表现不佳,显示出逻辑能力有待提高。在文综中,地理科目表现最差,而在理综中,生物科目表现相对较好。GPT-4o在政治科目上以91.5分的高分表现突出。

测试方式与评分标准

测试轮次:为了减少随机性的影响,所有科目进行了两轮测试,并取平均分作为最终成绩。

输入格式:公式采用Markdown/LaTeX格式输入,图像问题根据模型的识别能力输入相应的图片和文字。

测试操作:由专业的AI数据服务商进行统一规范的测试截图,确保了测试的公正性。

判分方式:与人类考生采用统一的评分标准,确保了评分的公平性。

这次AI参加高考的尝试,不仅展示了AI在特定领域的优势,也暴露了在逻辑推理和数学证明方面的不足。正如一位AI考生在作文中所引用的:“路漫漫其修远兮,吾将上下而求索。”这不仅是AI发展的写照,也是对人类不断探索未知世界的生动描述。通过这次测试,我们对AI的智力水平有了更深入的了解,也为AI未来的发展方向提供了宝贵的参考。

考生名单包括了来自OpenAI的GPT-4o、字节跳动的豆包、百度的文心4.0等知名AI产品,它们在这次高考中的表现,无疑将对AI技术的发展产生深远的影响。