Récemment, l'utilisateur Reddit @zefman a mené une expérience intéressante : il a créé une plateforme permettant à différents modèles linguistiques (LLM) de jouer aux échecs en temps réel. L'objectif ? Évaluer les performances de ces modèles de manière amusante et accessible.
Il est bien connu que ces modèles ne sont pas des joueurs d'échecs exceptionnels, mais malgré cela, @zefman a trouvé l'expérience riche en enseignements.
Dans cette expérience, @zefman s'est concentré sur quelques-uns des modèles les plus récents, GPT-4o se distinguant nettement comme le joueur le plus fort. Il a comparé GPT-4o à d'autres modèles comme Claude et Gemini, observant les différences de performance et trouvant le processus de réflexion et de raisonnement de chaque modèle fascinant. La plateforme permet de visualiser l'analyse de la partie par chaque modèle à chaque étape.
@zefman a conçu un affichage simple des parties. Chaque modèle reçoit les mêmes instructions pour un même état de jeu, incluant l'état du plateau, la notation FEN (Forsyth–Edwards Notation) et les deux derniers coups joués. Cette méthode garantit que chaque modèle prend ses décisions sur la base des mêmes informations, assurant ainsi une comparaison équitable.
Chaque modèle utilise les mêmes instructions, qui sont mises à jour avec l'état du plateau en ASCII, la notation FEN, et les deux coups précédents ainsi que la réflexion. Voici un exemple :
De plus, @zefman a remarqué que certains modèles, notamment les moins performants, pouvaient faire plusieurs mauvais coups. Pour pallier cela, il leur a accordé cinq chances de refaire leur choix. Si aucun coup valide n'était proposé, un coup valide était choisi aléatoirement pour maintenir le déroulement de la partie.
Sa conclusion : GPT-4o reste le plus fort, battant Gemini 1.5 pro aux échecs.
Points clés :
🌟 GPT-4o a démontré d'excellentes performances, devenant le modèle linguistique le plus fort de l'expérience.
♟️ L'expérience permet des parties en temps réel entre différents modèles, analysant leur processus de réflexion.
🔄 Les modèles moins performants ont parfois fait des erreurs, offrant une expérience interactive intéressante.