最近,Reddit用户用户@zefman进行了一项有趣的实验,搭建了一个平台,让不同的语言模型(LLM)实时对战国际象棋,目的是用户有趣且轻松的方式来评估这些模型的表现。

image.png

众所周知,这些模型在下棋方面并不出色,但即使如此,他觉得这个实验中还是能从中发现一些值得关注的亮点。

在这个实验中,@zefman特别关注了几款最新的模型,其中 GPT-4o 的表现最为突出,毫无疑问成为了最强的选手。与此同时,@zefman也将它与 Claude、Gemini 等其他模型进行了对比,观察它们的表现差异,发现每个模型的思考和推理过程都非常有趣。通过这个平台,大家可以看到每一步的决策背后,模型是如何分析棋局的。

@zefman设计的棋局展示方式相当简单,每个模型在面临同样的棋盘状态时,会给出相同的提示,包括当前的棋局状态、FEN(棋局表示法)以及它们之前的两步走法。这种方法确保了每个模型的决策是基于相同的信息,以便更公平地进行比较。

每个模型都使用完全相同的提示,该提示会随着 ASCI、FEN 中的电路板状态以及它们前两次的移动和思考而更新。下面是一个示例:

image.png

此外,@zefman还注意到,在某些情况下,尤其是对于一些性能较弱的模型,它们可能会多次选择错误的走法。为了解决这个问题,他给这些模型提供了5次重新选择的机会,如果它们依然无法选出有效的走法,就会随机选择一个有效的走法,这样可以保持游戏的进行。

他得出的结论是:GTP-4o仍是最强者, 在国际象棋上击败 Gemini1.5pro。

划重点:

🌟 GPT-4o 表现出色,成为实验中最强的语言模型。

♟️ 实验允许不同模型实时对弈,分析其思考过程。

🔄 性能较弱模型有时会选择错误的走法,提供了有趣的互动体验。