Benchmarks de LLMs com Trapaças

Projeto de pesquisa que explora comportamentos de trapaça em benchmarks de modelos de linguagem automática.

Produto ComumProgramaçãoProcessamento de Linguagem NaturalAprendizado de Máquina
Benchmarks de LLMs com Trapaças é um projeto de pesquisa que visa explorar comportamentos de trapaça em benchmarks de modelos de linguagem automática (LLMs) através da construção de chamados "modelos nulos" (null models). O projeto descobriu experimentalmente que, mesmo modelos nulos simples, conseguem altas taxas de sucesso nesses benchmarks, questionando a eficácia e confiabilidade dos benchmarks existentes. Esta pesquisa é importante para entender as limitações dos modelos de linguagem atuais e melhorar os métodos de benchmark.
Abrir Site

Benchmarks de LLMs com Trapaças Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

Benchmarks de LLMs com Trapaças Tendência de Visitas

Benchmarks de LLMs com Trapaças Distribuição Geográfica das Visitas

Benchmarks de LLMs com Trapaças Fontes de Tráfego

Benchmarks de LLMs com Trapaças Alternativas