Benchmark Turtle
Avalia a capacidade de raciocínio lógico e compreensão de contexto de grandes modelos de linguagem.
Produto ComumProgramaçãoBenchmarkRaciocínio Lógico
O Benchmark Turtle é um novo benchmark imparcial, baseado no jogo 'Turtle Soup', focado em avaliar a capacidade de raciocínio lógico e compreensão de contexto de grandes modelos de linguagem (LLMs). Ao eliminar a necessidade de conhecimento de fundo, ele fornece resultados objetivos e imparciais, com resultados quantificáveis e, através do uso de perguntas geradas por usuários reais, impede que os modelos sejam 'manipulados'.
Benchmark Turtle Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34