Recientemente, el usuario de Reddit @zefman realizó un experimento interesante: creó una plataforma para que diferentes modelos de lenguaje grande (LLM) jueguen ajedrez en tiempo real. El objetivo era evaluar el rendimiento de estos modelos de una manera divertida y accesible.

image.png

Como es bien sabido, estos modelos no son excelentes jugadores de ajedrez, pero aun así, @zefman encontró aspectos interesantes en este experimento.

En el experimento, @zefman se centró en varios modelos recientes, siendo GPT-4o el que se destacó como el jugador más fuerte, sin duda alguna. Simultáneamente, comparó GPT-4o con otros modelos como Claude y Gemini, observando las diferencias en su rendimiento. Encontró fascinante el proceso de pensamiento y razonamiento de cada modelo. La plataforma permite ver cómo cada modelo analiza la partida paso a paso.

El método de visualización de @zefman es bastante sencillo. Cada modelo recibe la misma información inicial para el mismo estado del tablero: el estado actual del tablero, la notación FEN (Forsyth–Edwards Notation) y sus dos movimientos anteriores. Esto asegura una comparación justa, ya que todos los modelos toman decisiones basándose en la misma información.

Cada modelo usa la misma indicación, la cual se actualiza con el estado del tablero en ASCII, FEN, y sus dos movimientos anteriores y su tiempo de pensamiento. Aquí hay un ejemplo:

image.png

Además, @zefman observó que algunos modelos más débiles a veces elegían movimientos incorrectos. Para solucionar esto, les dio 5 oportunidades para volver a elegir. Si seguían sin poder seleccionar un movimiento válido, se elegía uno al azar para que la partida continuara.

Su conclusión fue que GPT-4o sigue siendo el más fuerte, derrotando a Gemini1.5pro en ajedrez.

Puntos clave:

🌟 GPT-4o mostró un rendimiento excepcional, convirtiéndose en el modelo de lenguaje más fuerte del experimento.

♟️ El experimento permitió que diferentes modelos jugaran en tiempo real, analizando su proceso de pensamiento.

🔄 Los modelos más débiles a veces elegían movimientos incorrectos, ofreciendo una experiencia interactiva interesante.