Kürzlich führte der Reddit-Nutzer @zefman ein interessantes Experiment durch: Er baute eine Plattform, auf der verschiedene Sprachmodelle (LLMs) in Echtzeit Schach gegeneinander spielen. Ziel war es, die Leistung dieser Modelle auf unterhaltsame und unkomplizierte Weise zu evaluieren.
Bekanntlich sind diese Modelle nicht besonders gut im Schachspielen, dennoch glaubte er, dass sich aus diesem Experiment einige interessante Erkenntnisse gewinnen lassen.
Bei diesem Experiment konzentrierte sich @zefman besonders auf einige der neuesten Modelle, wobei GPT-4o die herausragende Leistung zeigte und unbestreitbar der stärkste Spieler war. Gleichzeitig verglich @zefman es mit anderen Modellen wie Claude und Gemini und beobachtete die Unterschiede in ihrer Leistung. Er fand den Denk- und Entscheidungsprozess jedes Modells sehr interessant. Über diese Plattform kann man die Analyse des Spielverlaufs hinter jeder Entscheidung der Modelle verfolgen.
Die von @zefman entwickelte Darstellung des Schachspiels ist recht einfach: Jedes Modell erhält bei gleichem Spielstand die gleichen Hinweise, darunter der aktuelle Spielstand, die FEN-Notation (Forsyth–Edwards Notation) und die beiden vorherigen Züge. Diese Methode stellt sicher, dass die Entscheidungen jedes Modells auf den gleichen Informationen basieren, um einen fairen Vergleich zu ermöglichen.
Jedes Modell verwendet exakt dieselbe Aufforderung, die mit dem Zustand des Brettes in ASCII, FEN, sowie den beiden vorherigen Zügen und Überlegungen aktualisiert wird. Hier ein Beispiel:
Außerdem bemerkte @zefman, dass einige Modelle, insbesondere die leistungsschwächeren, in einigen Fällen mehrmals falsche Züge wählten. Um dieses Problem zu lösen, gab er diesen Modellen fünf Versuche, einen gültigen Zug zu wählen. Konnten sie keinen gültigen Zug finden, wurde zufällig ein gültiger Zug ausgewählt, um den Spielverlauf aufrechtzuerhalten.
Sein Fazit: GPT-4o ist immer noch der Stärkste und besiegt Gemini1.5pro im Schach.
Highlights:
🌟 GPT-4o zeigte eine herausragende Leistung und war das stärkste Sprachmodell im Experiment.
♟️ Das Experiment ermöglichte das Echtzeit-Schachspiel verschiedener Modelle und die Analyse ihres Denkprozesses.
🔄 Leistungsschwächere Modelle wählten manchmal falsche Züge, was für eine interessante interaktive Erfahrung sorgte.