历史知识成AI软肋:大型语言模型难解复杂历史问题

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jan 20, 2025

151

最新研究显示，尽管人工智能在编程和内容创作等领域表现出色，但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明，即使是最先进的大型语言模型（LLM）在历史知识测试中也难以取得令人满意的成绩。

研究团队开发了名为Hist-LLM的测试基准，对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行，结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。

AI机器人写论文

图源备注：图片由AI生成，图片授权服务商Midjourney

伦敦大学学院副教授玛丽亚·德尔里奥-查诺纳解释说:"这些模型在基本史实方面表现不错，但在涉及博士级别的深入历史研究时却力不从心。"研究发现AI经常在细节上出错，比如错误判断古埃及某些时期是否拥有特定军事技术或常备军。

研究人员认为，这种表现欠佳源于AI模型倾向于从主流历史叙事中进行推断，难以准确把握更为细微的历史细节。此外，研究还发现这些模型在处理撒哈拉以南非洲等地区的历史问题时表现更差，暴露出训练数据可能存在的偏差问题。

复杂性科学中心（CSH）的研究负责人Peter Turchin表示，这一发现说明在某些专业领域，AI尚无法取代人类专家。不过研究团队仍对AI在历史研究中的应用前景保持乐观，他们正在改进测试基准，以期帮助开发出更优秀的模型。

人工智能大型语言模型 GPT-4 历史知识

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

OpenAI 最近悄悄发布了一份《构建 Agent 实战指南》（A practical guide to building agents），简直就是一份“AI 打工人”的养成手册!今天，老司机我就带你用最接地气、最有趣的方式，把这份官方秘籍给你扒个底朝天，让你也能轻松 Get 打造专属 AI Agent 的精髓!准备好了吗?发车!等等，Agent 到底是个啥玩意儿?跟普通软件有啥不一样?咱们先搞清楚，Agent 不是你手机里那些按部就班执行命令的 App，也不是只会简单聊天的机器人。OpenAI 给它下了个定义:Agent 是能独立自主地、代表你完成特定任务的系统。

2025年4月18号 14:01

30.9k

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下，Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力，正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道，Chatbot Arena 旨在通过这家新公司获取更多资源，从而显著改善其平台的功能和服务。Chatbot Arena 成立于2023年，主要由加州大学伯克利分校的研究人员主导。该平台为大型 AI 实验室提供了一个共享的测试环境，许多知名企业，如 OpenAI、谷歌和 Anthropic 等，均与 Chatbot Arena 合作，让其旗舰模型在这个社区中进行评估和测试。这个平台的兴

2025年4月18号 12:00

17.3k

OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

人工智能领域领军企业 OpenAI 近日重磅发布了一份名为“构建智能体实践指南”（"A practical guide to building agents"）的实用性文档。这份共34页的指南旨在为产品和工程团队提供构建首个智能体系统的必要知识和最佳实践，其内容凝结了 OpenAI 从众多客户实际部署案例中获得的深刻洞察。通过阅读本指南，开发者将能够理解智能体的核心概念，掌握何时以及如何设计、构建和安全部署智能体。什么是智能体?指南首先对智能体进行了清晰的定义，强调其与传统软件在自动化工作流程方式上的根本

2025年4月18号 11:30

3.1k

LMArena正式成立公司，致力于提供中立的AI评估平台

近日，备受关注的人工智能评估平台 LMArena 宣布将成立一家新公司，名为 Arena Intelligence Inc.，以便为未来的项目改进提供更强大的资源。LMArena 的创始团队在博客中表示，新公司的成立将帮助他们在保持中立的同时，增强大型语言模型（LLM）测试平台的功能，致力于为 AI 用户提供一个不受任何企业影响的公平评估环境。LMArena 于2023年由加州大学伯克利分校的研究人员创建，迅速发展成为业内最受认可的 AI 基准测试平台之一。该平台与谷歌、OpenAI 及 Anthropic 等多家知名公司建立了合作关系，

2025年4月18号 10:53

1.1k

工信部：已累计培育400余家人工智能领域国家级专精特新“小巨人”企业

工业和信息化部总工程师谢少锋表示，目前已累计培育 400 余家人工智能领域国家级专精特新“小巨人”企业。下一步要引导耐心资本加大支持力度，加快培育一批行业龙头企业和专精特新中小企业。建设人工智能开源社区，发挥人工智能标准化技术委员会作用，加快关键急需标准研制。

2025年4月18号 10:45

1.1k

印孚瑟斯开发超 200 个 AI 代理，2025财年净利润下降 12%

近日，印孚瑟斯（Infosys）发布了2025财年第四季度的财务报告，显示公司净利润为8.14亿美元，较去年同期的9.59亿美元下降了11.7%。不过，公司的营收却同比增长了7.9%，达到了47亿美元。整个财年，公司总营收为190亿美元，呈现出3.9% 的微幅增长。在新闻发布会上，印孚瑟斯首席执行官萨利尔・帕雷克（Salil Parekh）表达了对生成式人工智能(GenAI)的信心。他表示，客户对 AI 的需求正在不断增加，正逐渐从单一用例转向全面的 AI 转型。帕雷克透露，印孚瑟斯目前已开发出超过200个 AI 代理，并在

2025年4月18号 10:26

940

亚洲崛起：DeepSeek、巨额投资与数据中心助力 AI 竞争力

在今年的达沃斯世界经济论坛上，众多商界和政界领袖齐聚一堂，普遍认为美国科技巨头在人工智能（AI）领域占据主导地位，而中国乃至整个亚洲似乎都在这一赛道上滞后。然而，在与会者离开后，这种看法开始遭遇挑战。首先，来自中国的一家名不见经传的对冲基金 —— 深度寻求（DeepSeek）在这一时刻引发了全球的注意。该公司的 AI 部门推出了一款名为 R1的大型语言模型，其性能与 OpenAI 最新的模型相媲美。更令人惊讶的是，DeepSeek 声称只花费了600万美元进行训练，这一成本与硅谷公

2025年4月18号 9:59

1.5k

微软推出新型语言模型 BitNet b1.58 2B4T，仅占用0.4GB内存

近日，微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数，采用了独特的1.58位低精度架构进行原生训练，与传统的训练后量化方式相比，BitNet 在计算资源的需求上有了显著的降低。根据微软的介绍，该模型在非嵌入内存占用方面仅为0.4GB，远低于市场上其他同类产品，如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。BitNet 的高效性能源于其创新的架构设计。模型放弃了传统的16位数值，而是采用了定制的 BitLinear 层，限制权重为 -1、0和 +1三种状态，形成了三值

2025年4月18号 9:41

2.5k

上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”

在人工智能迅速发展的今天，上海人工智能实验室再次引领潮流，推出了全新的多模态大模型 “书生・万象3.0”。这一升级版本不仅在技术上进行了全面提升，还在多模态预训练和后训练方法的加持下，展现出了更强大的基础能力和应用潜力。“书生・万象3.0” 具备同时处理文本和多种多模态输入的能力，这使得它在多个应用场景中都能表现出色。例如，在 GUI 智能体、建筑图纸理解和空间推理等方面，该模型的表现都相当领先。这样的功能无疑为设计师、工程师以及各种需要视觉与文本

2025年4月17号 13:56

5.9k

人工智能助力医疗行业新发展：Hellocare.ai、SignalFire 等公司获重大融资

近期，健康科技行业迎来了多笔重要融资，显示出人工智能在医疗领域的快速崛起和广泛应用。其中，早期风险投资公司 SignalFire 成功筹集了10亿美元资金，旨在支持以人工智能为核心的初创企业。这笔资金的募集使得 SignalFire 的管理资产总额达到了30亿美元，突显了其在行业中的重要地位。SignalFire 的投资组合包括多家医疗初创公司，如 Grow Therapy 和 Health Gorilla 等。该公司利用其独特的机器学习平台 Beacon AI，分析数亿人的数据，识别市场趋势并发现新兴人才。SignalFire 的创始人兼首席执行

2025年4月17号 11:06

5.6k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图