En el campo del procesamiento del lenguaje natural (PLN), la comprensión de contextos largos ha sido un desafío constante. Si bien los modelos lingüísticos grandes (LLM) han demostrado un excelente rendimiento en diversas tareas lingüísticas, a menudo se ven limitados cuando procesan textos que superan el tamaño de su ventana de contexto. Para superar esta limitación, los investigadores han estado trabajando arduamente para mejorar la capacidad de los LLM para comprender textos largos, lo cual es crucial no solo para la investigación académica, sino también para aplicaciones del mundo real, como la comprensión del conocimiento en dominios específicos, la generación de conversaciones largas, la generación de historias largas o código, entre otras.

En esta investigación, los autores presentan un nuevo conjunto de pruebas de referencia llamado LooGLE (Long Context Generic Language Evaluation), diseñado específicamente para evaluar la capacidad de comprensión de contextos largos de los LLM. Este conjunto de pruebas incluye 776 documentos extra largos posteriores a 2022, con un promedio de 19.3k palabras por documento, y 6448 instancias de prueba que abarcan múltiples dominios, como la academia, la historia, los deportes, la política, el arte, los eventos y el entretenimiento.

image.png

Características de LooGLE

Documentos reales extra largos: La longitud de los documentos en LooGLE supera con creces el tamaño de la ventana de contexto de los LLM, lo que exige que los modelos puedan memorizar y comprender textos más extensos.

Tareas de dependencia larga y corta diseñadas manualmente: El conjunto de pruebas incluye siete tareas principales, que abarcan tareas de dependencia corta y larga, para evaluar la capacidad de los LLM para comprender contenido con dependencias tanto cortas como largas.

Documentos relativamente novedosos: Todos los documentos se publicaron después de 2022, lo que garantiza que la mayoría de los LLM modernos no hayan tenido contacto con estos documentos durante su preentrenamiento, permitiendo una evaluación más precisa de su capacidad de aprendizaje contextual.

Datos generales multidominio: Los datos del conjunto de pruebas provienen de documentos de código abierto populares, como artículos de arXiv, artículos de Wikipedia, guiones de películas y series de televisión, etc.

Los investigadores realizaron una evaluación exhaustiva de 8 LLM de vanguardia, y los resultados revelaron los siguientes hallazgos clave:

Los modelos comerciales superaron en rendimiento a los modelos de código abierto.

Los LLM mostraron un excelente rendimiento en tareas de dependencia corta, pero presentaron desafíos en tareas de dependencia larga más complejas.

Los métodos basados en el aprendizaje contextual y el razonamiento en cadena solo proporcionaron mejoras limitadas en la comprensión de contextos largos.

Las técnicas basadas en la recuperación mostraron una ventaja significativa en la respuesta a preguntas cortas, mientras que las estrategias para ampliar la longitud de la ventana de contexto mediante arquitecturas Transformer optimizadas o codificación posicional tuvieron un impacto limitado en la comprensión de contextos largos.

El conjunto de pruebas LooGLE no solo proporciona un esquema de evaluación sistemático y completo para evaluar los LLM de contexto largo, sino que también ofrece orientación para el desarrollo futuro de modelos con una "verdadera comprensión de contextos largos". Todo el código de evaluación se ha publicado en GitHub para que la comunidad investigadora lo consulte y utilice.

Enlace al artículo: https://arxiv.org/pdf/2311.04939

Enlace al código: https://github.com/bigai-nlco/LooGLE