AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-01-20 09:23:26.AIbase

历史知识成AI软肋:大型语言模型难解复杂历史问题

最新研究显示，尽管人工智能在编程和内容创作等领域表现出色，但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明，即使是最先进的大型语言模型（LLM）在历史知识测试中也难以取得令人满意的成绩。研究团队开发了名为Hist-LLM的测试基准，对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行，结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。图源备注：图片由AI生成，图片授权服务商Midjourney伦敦大学学院副教授

历史知识成AI软肋:大型语言模型难解复杂历史问题