最新研究显示,尽管人工智能在编程和内容创作等领域表现出色,但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明,即使是最先进的大型语言模型(LLM)在历史知识测试中也难以取得令人满意的成绩。
研究团队开发了名为Hist-LLM的测试基准,对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行,结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。
图源备注:图片由AI生成,图片授权服务商Midjourney
伦敦大学学院副教授玛丽亚·德尔里奥-查诺纳解释说:"这些模型在基本史实方面表现不错,但在涉及博士级别的深入历史研究时却力不从心。"研究发现AI经常在细节上出错,比如错误判断古埃及某些时期是否拥有特定军事技术或常备军。
研究人员认为,这种表现欠佳源于AI模型倾向于从主流历史叙事中进行推断,难以准确把握更为细微的历史细节。此外,研究还发现这些模型在处理撒哈拉以南非洲等地区的历史问题时表现更差,暴露出训练数据可能存在的偏差问题。
复杂性科学中心(CSH)的研究负责人Peter Turchin表示,这一发现说明在某些专业领域,AI尚无法取代人类专家。不过研究团队仍对AI在历史研究中的应用前景保持乐观,他们正在改进测试基准,以期帮助开发出更优秀的模型。