RULER
Un punto de referencia de evaluación diseñado para probar la razonabilidad de los modelos de lenguaje de texto largo.
Producto ComúnProductividadTexto largoModelo de lenguaje
RULER es un nuevo benchmark sintético que ofrece una evaluación más completa para los modelos de lenguaje de texto largo. Amplía las pruebas de recuperación comunes, abarcando diferentes tipos y cantidades de puntos de información. Además, RULER introduce nuevas categorías de tareas, como el seguimiento de múltiples saltos y la agregación, para probar comportamientos más allá de la simple recuperación de contexto. Se evaluaron 10 modelos de lenguaje de texto largo en RULER, obteniendo resultados en 13 tareas representativas. Aunque estos modelos lograron una precisión casi perfecta en las pruebas de recuperación comunes, su rendimiento fue significativamente deficiente al aumentar la longitud del contexto. Solo cuatro modelos (GPT-4, Command-R, Yi-34B y Mixtral) mostraron un rendimiento aceptable con una longitud de 32K. Publicamos el código fuente de RULER para fomentar una evaluación exhaustiva de los modelos de lenguaje de texto largo.
RULER Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44