GPT-4在图灵测试中失败,60年前的ELIZA击败ChatGPT。测试显示人类判断聊天机器人的准确率仅有63%。研究考察了不同模型的表现,引发对图灵测试有效性的讨论。