在人工智能的发展历程中,图灵测试一直是一个重要的里程碑。最近,圣地亚哥加州大学认知科学系的研究人员对GPT-4进行了一次图灵测试的复刻实验,结果令人瞩目。

他们招募了500名参与者,与四个代理人进行交谈,其中包括一个真实的人类和三个AI模型:1960年代的ELIZA程序、GPT-3.5以及GPT-4。在五分钟的对话后,参与者需要判断他们是否在与人类或AI进行交流。

image.png

实验结果显示,GPT-4被误认为人类的概率高达54%,而ELIZA只有22%,GPT-3.5为50%,真正的人类则被正确识别的概率为67%。这一结果首次提供了实验证据,表明人工智能系统在互动式双人图灵测试中的表现已经足够以假乱真。

1.jpg

研究人员还发现,参与者在判断时更倾向于使用小谈话和社会情感策略。他们根据对话内容和代理人的表现,主要依据语言风格和社会情感因素来做出判断。这一发现对机器智能的讨论具有重要影响,表明AI系统在实际应用中可能欺骗人类。

这项研究的意义重大,它不仅暗示了当前AI系统在实际应用中可能欺骗人类,也对机器智能的讨论产生了深远的影响。人们在与AI交流时,可能越来越难以区分对方是否为人类,这对于人工智能的伦理、隐私和安全性等问题提出了新的挑战。