Benchmarks de LLMs com Trapaças
Projeto de pesquisa que explora comportamentos de trapaça em benchmarks de modelos de linguagem automática.
Produto ComumProgramaçãoProcessamento de Linguagem NaturalAprendizado de Máquina
Benchmarks de LLMs com Trapaças é um projeto de pesquisa que visa explorar comportamentos de trapaça em benchmarks de modelos de linguagem automática (LLMs) através da construção de chamados "modelos nulos" (null models). O projeto descobriu experimentalmente que, mesmo modelos nulos simples, conseguem altas taxas de sucesso nesses benchmarks, questionando a eficácia e confiabilidade dos benchmarks existentes. Esta pesquisa é importante para entender as limitações dos modelos de linguagem atuais e melhorar os métodos de benchmark.
Benchmarks de LLMs com Trapaças Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34