RULER

Um benchmark de avaliação projetado para testar a robustez de modelos de linguagem para textos longos.

Produto ComumProdutividadeTexto longoModelo de linguagem
O RULER é um novo benchmark sintético que oferece uma avaliação mais completa para modelos de linguagem de texto longo. Ele amplia os testes de recuperação tradicionais, abrangendo diferentes tipos e quantidades de pontos de informação. Além disso, o RULER introduz novas categorias de tarefas, como rastreamento multi-salto e agregação, para testar comportamentos além da simples recuperação de contexto. Avaliamos 10 modelos de linguagem de texto longo no RULER, obtendo resultados em 13 tarefas representativas. Embora esses modelos tenham alcançado precisão quase perfeita em testes de recuperação tradicionais, seu desempenho foi significativamente inferior quando o comprimento do contexto aumentou. Apenas quatro modelos (GPT-4, Command-R, Yi-34B e Mixtral) apresentaram desempenho razoável com comprimento de 32K. Disponibilizamos publicamente o RULER para fomentar uma avaliação abrangente dos modelos de linguagem de texto longo.
Abrir Site

RULER Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

RULER Tendência de Visitas

RULER Distribuição Geográfica das Visitas

RULER Fontes de Tráfego

RULER Alternativas