Recentemente, o usuário do Reddit @zefman conduziu um experimento interessante: criar uma plataforma para que diferentes modelos de linguagem ampla (LLMs) jogassem xadrez em tempo real. O objetivo era avaliar o desempenho desses modelos de uma maneira divertida e descontraída.
Como é sabido, esses modelos não são excelentes jogadores de xadrez, mas mesmo assim, ele acreditava que o experimento revelaria alguns pontos interessantes.
Neste experimento, @zefman focou em alguns dos modelos mais recentes, com o GPT-4o se destacando como o jogador mais forte, sem dúvida. Ao mesmo tempo, @zefman comparou o GPT-4o com outros modelos, como Claude e Gemini, observando as diferenças de desempenho. Ele descobriu que o processo de pensamento e raciocínio de cada modelo era fascinante. A plataforma permitia que todos vissem como cada modelo analisava o jogo a cada movimento.
A maneira como @zefman projetou a apresentação do jogo de xadrez foi bastante simples. Cada modelo recebia o mesmo prompt ao se deparar com o mesmo estado do tabuleiro, incluindo o estado atual do tabuleiro, a notação FEN (Forsyth–Edwards Notation) e os dois movimentos anteriores. Este método garantiu que cada modelo tomasse decisões com base nas mesmas informações, permitindo uma comparação mais justa.
Cada modelo recebeu exatamente o mesmo prompt, que era atualizado com o estado do tabuleiro em ASCII e FEN, juntamente com suas duas jogadas anteriores e o tempo de reflexão. Eis um exemplo:
Além disso, @zefman observou que, em algumas ocasiões, especialmente com modelos de desempenho mais fraco, eles poderiam escolher jogadas incorretas várias vezes. Para resolver isso, ele deu a esses modelos 5 chances de reescolher. Se eles ainda não conseguissem escolher uma jogada válida, uma jogada válida era selecionada aleatoriamente, mantendo assim o jogo em andamento.
Sua conclusão foi que o GTP-4o ainda é o mais forte, derrotando o Gemini1.5pro no xadrez.
Destaques:
🌟 O GPT-4o teve um desempenho excepcional, tornando-se o modelo de linguagem mais forte do experimento.
♟️ O experimento permitiu que diferentes modelos jogassem em tempo real, analisando seus processos de pensamento.
🔄 Modelos de desempenho mais fraco às vezes escolhiam jogadas incorretas, proporcionando uma experiência interativa interessante.