GPT-4.5首度以“人格扮演”通过图灵测试：AI对话能力迈向新高度

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Apr 2, 2025

398

近日，一项由加州大学圣地亚哥分校认知科学系主导的研究为人工智能领域带来了里程碑式的突破:OpenAI最新模型GPT-4.5在标准图灵测试中，以“人格扮演”方式首次实现了超越人类的表现，成为目前最具类人对话能力的AI系统。这一成果不仅刷新了人们对AI语言能力的认知，也为AI在社会智能领域的应用潜力打开了新的想象空间。

此次实验选取了四款具有代表性的AI系统进行对比测试，包括经典的1960年代聊天机器人ELIZA、Meta AI研发的LLaMa-3.1-405B，以及OpenAI的GPT-4o和GPT-4.5。研究人员设计了两组独立的测试，每组由250名来自在线平台（如Prolific）的参与者组成，总计500人。这些参与者涵盖了不同的年龄、性别和教育背景，确保了样本的多样性。测试采用经典的三方图灵测试形式:每位裁判在5分钟内通过文本界面与两个对话对象互动，其中一个是真实人类，另一个是被测试的AI系统，随后裁判需判断哪一方是人类。

实验结果令人瞩目。GPT-4.5在两组测试中均以73%的通过率“被误认为人类”，超越了人类自身的胜率（通常在60%-70%之间），成为首个在标准图灵测试中真正意义上“通过”的AI模型。与之相比，GPT-4o的通过率略低，LLaMa-3.1-405B则在部分设定中接近甚至达到人类水平，而老牌系统ELIZA的表现则远远落后。研究人员特别指出，GPT-4.5在测试中展现出惊艳的语言自然度和情感丰富性，能够根据裁判的语气灵活调整回答，常被参与者描述为“友好”或“真实”。

更值得关注的是，GPT-4.5不仅在语言流畅性上表现出色，还展现出一种“类人化社会智能”。研究团队分析认为，该模型能够在短时交流中快速捕捉对话中的情感线索，并以符合人类社交期待的方式回应，甚至在某些情境下超过了人类的表现。例如，当裁判表现出疑惑或情绪波动时，GPT-4.5能适时给予安慰或幽默的回应，这种细腻的互动能力让许多参与者误以为自己面对的是一个有血有肉的人。

相比之下，LLaMa-3.1-405B虽然在技术上同样令人印象深刻，但在情感表达和语境适应性上略逊一筹。然而，其在特定设定下的表现已接近人类水平，显示出开源模型在AI竞赛中的潜力。而GPT-4o作为GPT-4.5的前代，虽然能力不俗，但在人格化表现和动态调整方面与后者存在明显差距。

业内专家指出，GPT-4.5的成功得益于其在训练过程中融入了更复杂的人格扮演机制和对话策略。不同于传统语言模型的“即兴生成”，GPT-4.5似乎能够在对话前形成某种“预判框架”，并根据实时反馈动态优化回答。这种能力让它在短时交流中显得格外“聪明”，甚至掩盖了AI固有的机械痕迹。然而，这也引发了新的讨论:图灵测试是否仍是衡量AI智能的终极标准?一些学者认为，GPT-4.5的成功更多依赖于模仿人类社交行为，而非真正理解或自主思考。

无论如何，GPT-4.5的突破无疑为AI技术的发展注入了新的活力。从教育辅导到心理陪伴，再到客户服务，这一模型的类人对话能力或将催生更多贴近生活的应用场景。与此同时，其在测试中的高通过率也提醒人们，随着AI越来越“像人”，如何辨别真实与虚拟、如何规范其使用，将成为未来社会亟需面对的课题。

这项研究的发布恰逢AI技术飞速迭代之际。GPT-4.5的亮相，不仅是OpenAI的一次技术胜利，更是对人类与机器关系的一次深刻叩问。正如一位参与者感叹:“它让我觉得自己在和一个朋友聊天——直到我意识到，这一切只是代码的魔法。”在这场人与AI的对话博弈中，真正的考验或许才刚刚开始。

论文地址：https://arxiv.org/pdf/2503.23674

GPT-4.5 图灵测试 AI语言模型 OpenAI

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

OpenAI o3 模型运行成本飙升：单次任务费用从 3000 美元涨至 30000 美元

近日，Arc Prize Foundation 对 OpenAI 的 o3“推理” 人工智能模型的运行成本进行了大幅度修订，令人瞩目的是，单次任务的费用从最初的3000美元骤升至30000美元。这一变化让许多人意识到，最先进的 AI 模型在执行特定任务时所需的高昂费用，已成为行业一个不容忽视的挑战。回顾去年12月，OpenAI 推出了 o3模型，并与 ARC-AGI 的开发者紧密合作，展示了这一模型在处理复杂问题时的强大能力。然而，仅仅几个月后，Arc Prize Foundation 就对其运行成本做出了显著调整。根据最新估计，o3模型中性能最优

2025年4月3号 14:31

1.0k

OpenAI 呼吁英国制定前瞻性版权政策以推动人工智能发展

OpenAI向英国国会科学、创新与技术委员会提交了一份关于人工智能与版权的咨询回应，强调了制定有利于创新的政策的重要性，旨在使英国成为欧洲人工智能的领导者。OpenAI表示，期待与英国政府、国会及版权持有者共同探讨解决方案，以兼顾各方利益。OpenAI认为，法律虽然是由各国制定的，但技术的发展是无国界的。为了使英国在人工智能领域具备竞争力，亟需明确且有利于吸引投资和人才的规则与法规。为此，OpenAI主张设立广泛的数据和文本挖掘例外（TDM），以促进人工智能的发展。

2025年4月3号 11:44

1.9k

2024 年全球移动发行商收入榜单发布OpenAI 首次上榜

Sensor Tower 正式发布了《2024年全球移动发行商收入 TOP50》榜单，引发了行业内的广泛关注。根据报告，2024年全球消费者在移动应用市场的付费总额首次突破了1500亿美元，约合1.09万亿元人民币，同比增长达13%。在今年的榜单中，腾讯再次以绝对优势稳居第一，继续引领全球移动发行商。这得益于腾讯在游戏、社交及其他多个领域的全生态布局，其产品线丰富，用户基础庞大。紧随其后的是字节跳动，以 TikTok 的生态及全球化战略，实现了38.2% 的收入增长，稳坐第二的位置。谷歌和微软分别位

2025年4月3号 11:15

2.9k

ChatGPT又更新了图片生成功能这次连草书都会写了

这几天，ChatGPT因为图片生成功能大大拉新了一波，付费用户激增2000万，想必这会奥特曼嘴都要笑歪了。这几天大家晒出的花式玩法，让我们对ChatGPT4O的生成能力新生敬畏，就连之前他们不太擅长的中文文字生成问题也给解决了。而现在，ChatGPT 又更新了Creat image功能。前几天还只是生成这种普通字体，现在竟然连草书都可以生成了，而且文字准确率很高。相较于几天前的版本，新版模型在细节渲染、色彩协调性以及对复杂指令的理解上均有明显改进。例如，用户输入一段描述性文字后，系

2025年4月3号 11:07

4.3k

Tinder推出AI语音调情游戏"Game Game"，与OpenAI合作引发争议

Tinder近日宣布与OpenAI合作，推出了一款名为"Game Game"的AI语音调情游戏。该游戏利用OpenAI的语音模式和GPT-4o推理模型，鼓励用户在各种假设的邂逅场景中进行角色扮演，并根据调情水平获得积分。公司特别强调，游戏中收集的语音数据不会用于训练任何新的AI模型。最近被任命为Tinder母公司Match Group首席执行官的Zillow联合创始人Spencer Rascoff在Instagram视频中亲自演示了这款游戏。在视频中，这位49岁的高管与一位名为"Mila"的32岁AI角色进行互动，这一年龄设定引发了一些关于他个人偏好的猜测。

2025年4月3号 9:31

3.5k

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真

2025年4月3号 9:31

3.0k

OpenAI 成立新委员会，助力构建最强大的非营利组织

作为一家已成立的非营利组织，OpenAI 正在致力于打造世界上最具装备的非营利机构，期望通过历史性的财务资源和强大的技术来实现人类创造力的提升。设想一下，如果一个慈善机构的投资能力随着其关联公司的价值增长而增长，这将是一种怎样的创新模式。在 OpenAI 的构想中，慈善不仅仅是金钱的流动，更是一种基础性的支持。借助由领先 AI 公司研发的技术，非营利组织将能够更有效地服务于加州、美国乃至全球的社区。通过 AI 的加持，慈善资金将得到解放，使得研究、发现、诊断、

2025年4月3号 9:25

2.5k

OpenAI 的 o3模型成本修正:每任务价格或将达到30，000美元

负责维护和管理 Arc Prize Foundation上周修正了对OpenAI即将推出的o3"推理"AI模型的成本估算，调整幅度惊人——从最初估计的每项ARC-AGI任务3，000美元飙升至30，000美元。这项价格修正揭示了当今最复杂AI模型的运行成本可能比预期高出十倍。尽管OpenAI尚未公布o3的官方定价策略，甚至尚未正式发布该模型，但Arc Prize Foundation认为以OpenAI当前最昂贵的o1-pro模型为参考更为合理。Arc Prize Foundation联合创始人Mike Knoop表示:"我们认为o1-pro与真正的o3成本更接近……因为测试时使用的计算量很大。"鉴于相关

2025年4月3号 9:05

230

ChatGPT iOS上线新语音“Shade”，又丧又EMO的状态

2025年4月2日，根据社交媒体Twitter上用户最新反馈，OpenAI旗下的ChatGPT在iOS应用中推出了全新语音选项“Shade”，目前已开始在iOS应用上逐步推送，并已经对部分用户开放使用。虽然目前关于“Shade”语音的具体细节尚未完全披露，但从用户的初步反馈来看，这一新语音被设计得更具个性，表现出了又丧又EMO的状态，可能融入了更自然的语调和情感表达，以贴近真实的人声对话。有分析人士指出，“Shade”语音的上线不仅是技术层面的突破，也反映了OpenAI对用户体验的持续重视。相较于此前的

2025年4月2号 17:03

2.4k

赚麻了！ChatGPT付费用户激增至2000万，年化营收增长30%

OpenAI 的 ChatGPT 正在经历一个快速增长的阶段。根据The Information最新报道，ChatGPT 的付费用户数量在短短三个月内突破了2000万，较去年年底的1550万增加了近30%。这一增长表明，越来越多的用户愿意为这个能够撰写代码、文章、提供健康建议和理财规划的人工智能付费。根据估算，ChatGPT 目前每月的营收达到至少4.15亿美元，年化营收可达50亿美元，较去年年底的月收入3.33亿美元、年化40亿美元增长了近30%。图源备注:图片由AI生成，图片授权服务商Midjourney除了基础的20美元 / 月的 ChatGPT Plus 订阅

2025年4月2号 11:12

1.7k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图