RULER

Un punto de referencia de evaluación diseñado para probar la razonabilidad de los modelos de lenguaje de texto largo.

Producto ComúnProductividadTexto largoModelo de lenguaje
RULER es un nuevo benchmark sintético que ofrece una evaluación más completa para los modelos de lenguaje de texto largo. Amplía las pruebas de recuperación comunes, abarcando diferentes tipos y cantidades de puntos de información. Además, RULER introduce nuevas categorías de tareas, como el seguimiento de múltiples saltos y la agregación, para probar comportamientos más allá de la simple recuperación de contexto. Se evaluaron 10 modelos de lenguaje de texto largo en RULER, obteniendo resultados en 13 tareas representativas. Aunque estos modelos lograron una precisión casi perfecta en las pruebas de recuperación comunes, su rendimiento fue significativamente deficiente al aumentar la longitud del contexto. Solo cuatro modelos (GPT-4, Command-R, Yi-34B y Mixtral) mostraron un rendimiento aceptable con una longitud de 32K. Publicamos el código fuente de RULER para fomentar una evaluación exhaustiva de los modelos de lenguaje de texto largo.
Abrir sitio web

RULER Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

RULER Tendencia de visitas

RULER Distribución geográfica de las visitas

RULER Fuentes de tráfico

RULER Alternativas