Reddit用户实测：GTP-4o在国际象棋上击败Gemini 1.5 pro

最近，Reddit用户用户@zefman进行了一项有趣的实验，搭建了一个平台，让不同的语言模型（LLM）实时对战国际象棋，目的是用户有趣且轻松的方式来评估这些模型的表现。

众所周知，这些模型在下棋方面并不出色，但即使如此，他觉得这个实验中还是能从中发现一些值得关注的亮点。

在这个实验中，@zefman特别关注了几款最新的模型，其中 GPT-4o 的表现最为突出，毫无疑问成为了最强的选手。与此同时，@zefman也将它与 Claude、Gemini 等其他模型进行了对比，观察它们的表现差异，发现每个模型的思考和推理过程都非常有趣。通过这个平台，大家可以看到每一步的决策背后，模型是如何分析棋局的。

@zefman设计的棋局展示方式相当简单，每个模型在面临同样的棋盘状态时，会给出相同的提示，包括当前的棋局状态、FEN（棋局表示法）以及它们之前的两步走法。这种方法确保了每个模型的决策是基于相同的信息，以便更公平地进行比较。

每个模型都使用完全相同的提示，该提示会随着 ASCI、FEN 中的电路板状态以及它们前两次的移动和思考而更新。下面是一个示例:

此外，@zefman还注意到，在某些情况下，尤其是对于一些性能较弱的模型，它们可能会多次选择错误的走法。为了解决这个问题，他给这些模型提供了5次重新选择的机会，如果它们依然无法选出有效的走法，就会随机选择一个有效的走法，这样可以保持游戏的进行。

他得出的结论是:GTP-4o仍是最强者，在国际象棋上击败 Gemini1.5pro。

划重点:
🌟 GPT-4o 表现出色，成为实验中最强的语言模型。
♟️ 实验允许不同模型实时对弈，分析其思考过程。
🔄 性能较弱模型有时会选择错误的走法，提供了有趣的互动体验。

AI新闻资讯

Reddit用户实测：GTP-4o在国际象棋上击败Gemini 1.5 pro

AIbase基地