在1950年,一个名叫艾伦·图灵的聪明人想出了一个测试机器是否具备智能的巧妙方法,这就是著名的图灵测试。简单来说,如果一台机器能在文字交流中让人分不清它是机器还是人类,那么它就通过了测试,被认为是有智能的。
但是,随着技术的发展,我们开始思考一个新的问题:如果我们不是直接和AI交流,而是读到AI和其他人交流的文字记录,我们还能准确判断出谁是人谁是机器吗?
最近,加州大学圣地亚哥分校的一群科学家就这个问题进行了深入研究。他们设计了一种改良版的图灵测试,称为“倒置图灵测试”和“移位图灵测试”,来探索这个问题。
图源备注:图片由AI生成,图片授权服务商Midjourney
在倒置图灵测试中,AI不再是被测试的对象,而是变成了裁判。科学家们让GPT-3.5和GPT-4这两种大型语言模型来阅读真实的人类和AI之间的对话记录,然后判断对话中的参与者是人类还是AI。
结果让人惊讶:这些AI裁判的判断准确率不仅低于直接参与交流的人类裁判,而且在很多情况下,它们甚至错误地将AI当成了人类。特别是对于表现最好的GPT-4模型,AI裁判将其判断为人类的频率比真正的人类参与者还要高。
科学家们还进行了移位图灵测试,这次是人类裁判来阅读AI和人类之间的对话记录。结果发现,即使是人类裁判,在这种情况下判断的准确率也低于直接参与交流的人类裁判。
这些发现告诉我们,无论是人类还是AI,在没有直接交流的情况下,都很难准确判断对方是人还是机器。这对于我们日常生活中的在线交流具有重要意义,因为我们常常是通过阅读别人的对话来了解他们的。
这也意味着,如果我们依赖AI来检测网络上的假信息或者冒充人类的AI,我们可能需要更加精确的工具。因为目前的AI模型在这项任务上的表现并不比人类好。
这项研究不仅让我们对AI的理解更深入,也揭示了AI发展中的一个重要挑战:如何设计出更好的工具来检测和区分AI生成的内容和人类生成的内容。
随着AI技术的不断进步,这个问题将变得越来越重要。我们需要确保,在我们享受AI带来的便利的同时,也能够保护我们的数据安全和网络环境的真实性。
论文地址:https://arxiv.org/pdf/2407.08853