Turtle Benchmark est un nouveau benchmark objectif et infalsifiable, basé sur le jeu « Turtle Soup », conçu pour évaluer les capacités de raisonnement logique et de compréhension contextuelle des grands modèles de langage (LLM). En éliminant le besoin de connaissances générales, il fournit des résultats objectifs et impartiaux, quantifiables, et empêche toute « manipulation » du modèle grâce à l’utilisation de questions générées par de vrais utilisateurs.