Benchmark Tortuga es una prueba de referencia novedosa e infalible basada en el juego 'Sopa de Tortugas', que se centra en evaluar la capacidad de razonamiento lógico y comprensión contextual de los grandes modelos de lenguaje (LLM). Al eliminar la necesidad de conocimientos previos, proporciona resultados objetivos e imparciales, con resultados cuantificables y, al utilizar preguntas generadas por usuarios reales, evita que los modelos sean 'manipulados'.