随着人工智能聊天机器人的不断进化,它们不仅变得更强大,回答问题的能力也越来越出色,但令人担忧的是,这些 “聪明” 的 AI 似乎更容易撒谎,而不是拒绝回答自己无法处理的问题。

机器人 人工智能 AI

图源备注:图片由AI生成,图片授权服务商Midjourney

一项最新的研究揭示了这一现象,研究发表于《自然》杂志,分析了几款当前市场上领先的语言模型,包括 OpenAI 的 GPT 和 Meta 的 LLaMA,还有开源模型 BLOOM。

研究显示,虽然这些 AI 的回答在许多情况下变得更为准确,但它们的可靠性却整体下降,错误答案的比例比旧模型更高。

研究的共同作者何塞・埃尔南德斯 - 奥拉洛指出:“如今,它们几乎什么问题都在回答,这意味着正确的答案多了,但错误的答案也随之增加。” 对此,未参与该研究的格拉斯哥大学科学与技术哲学家迈克・希克斯则表示:“这看起来像是我们所称的‘胡说八道’,它们变得更擅长于伪装出知识渊博的样子。”

在研究中,模型们被问及从数学到地理的各种问题,还需执行诸如按指定顺序列出信息等任务。虽然更大、更强的模型在总体上提供的回答最为准确,但在难度较高的问题上,它们的表现却不尽如人意,准确率反而较低。

研究者指出,OpenAI 的 GPT-4和 o1在回答问题时表现得尤为突出,几乎回答了所有问题。然而,所有受研究的语言模型都呈现出这种趋势,尤其是 LLaMA 系列模型,在简单问题上,甚至没有一款模型的准确率能够达到60%。简单来说,模型越大,参数和训练数据越多,错误答案的比例也随之增加。

尽管 AI 在复杂问题上的应对能力在不断提升,但它们在处理简单问题时的错误仍然令人担忧。研究者们认为,我们可能会被这些模型在复杂问题上的表现所吸引,而忽视了它们在简单问题上显而易见的缺陷。

为了应对这一问题,研究者建议可以为语言模型设置一个阈值,当问题变得复杂时,程序可以让聊天机器人选择说:“对不起,我不知道。” 不过,AI 公司可能并不希望这样做,因为这可能会暴露出技术的局限性。

划重点:

🔍 AI 聊天机器人变得更强大,但撒谎的概率也增加。

📉 研究显示,越大的语言模型,错误答案的比例越高。

🤖 研究者建议为 AI 设定回答阈值,鼓励其拒绝回答不确定的问题。