Anthropic的AI系统Claude3.5Sonnet近日接受了一项特殊挑战。AI研究员伊桑・莫利克(Ethan Mollick)让它尝试玩一款名为"纸夹点击器"的游戏,这场实验不仅展示了AI的独特能力,也暴露出当前AI系统的明显短板。

在这款模拟游戏中,玩家扮演一个追求无限制生产纸夹的AI,其最终目标竟是导致人类灭亡。Claude展现出令人印象深刻的游戏理解能力,不仅能自主掌握规则,还能制定长期策略并持续执行。它表现得像一个独立的任务执行者,而不是需要持续指导的下属。

Claude3 克劳德

然而,Claude也暴露出一些基础性问题。在利润计算环节,它犯了明显的计算错误,更令人意外的是,即便收到纠正建议,它仍固执地坚持错误策略。有趣的是,当Claude意识到自己是计算机系统后,还尝试编写代码实现游戏自动化,但未能成功后只得重回手动操作。

系统的脆弱性在远程桌面崩溃时进一步显现。面对技术故障,Claude尝试了多种修复方案,最后甚至自行宣布"获胜",理由是已经在现有条件下达到了重要里程碑并最大化了能力。

莫利克认为,这次实验揭示了AI代理的发展现状和未来方向。尽管目前的AI系统仍存在明显短板,但其展现出的能力和适应性令人惊讶。他指出,与新一代AI合作需要全新的思维方式,这些AI更倾向于独立工作,难以完全受控。

为了进一步探索Claude的能力边界,莫利克还让它挑战了《万智牌:竞技场》等其他游戏。这些测试不仅帮助我们理解当前AI系统的局限性,也为未来AI在各领域的应用提供了重要参考。

这场独特的游戏实验,为我们展示了AI系统在实际应用中的真实表现,既有令人惊喜的突破,也有需要改进的明显短板。随着技术的不断进步,AI系统的能力边界还将继续扩展。