在自然语言处理领域,长语境理解一直是一个挑战。尽管大型语言模型(LLMs)在多种语言任务上表现出色,但它们在处理超出其上下文窗口大小的文本时常常受限。为了克服这一限制,研究者们一直在努力提升LLMs对长文本的理解能力,这不仅对于学术研究具有重要意义,对于现实世界的应用场景,如特定领域的知识理解、长对话生成、长故事或代码生成等,同样至关重要。

在这项研究中,作者们提出了一个新的基准测试——LooGLE(Long Context Generic Language Evaluation),专为评估LLMs的长语境理解能力而设计。这个基准测试包含了776篇2022年之后的超长文档,每篇文档平均包含19.3k个单词,并且有6448个测试实例,涵盖了多个领域,如学术、历史、体育、政治、艺术、事件和娱乐等。

image.png

LooGLE的特点

超长的真实文档:ooGLE中的文档长度远超LLMs的上下文窗口大小,这要求模型能够记忆和理解更长的文本。

手动设计的长短依赖任务:基准测试包含了7个主要任务,包括短依赖和长依赖任务,以评估LLMs对长短依赖内容的理解能力。

相对新颖的文档:所有文档都是2022年之后发布的,这确保了大多数现代LLMs在预训练期间没有接触过这些文档,从而更准确地评估它们的语境学习能力。

跨领域通用数据:基准测试的数据来源于流行的开源文档,如arXiv论文、维基百科文章、电影和电视剧本等。

研究者们对8种最先进的LLMs进行了综合评估,结果揭示了以下关键发现:

商业模型在性能上超过了开源模型。

LLMs在短依赖任务上表现出色,但在更复杂的长依赖任务上存在挑战。

基于上下文学习和思维链的方法在长语境理解上仅提供了有限的改进。

基于检索的技术在短问题回答中显示出显著的优势,而通过优化的Transformer架构或位置编码来扩展上下文窗口长度的策略对长语境理解的影响有限。

LooGLE基准测试不仅为评估长语境LLMs提供了一个系统和全面的评价方案,而且为未来开发具有“真正长语境理解”能力的模型提供了指导。所有评估代码已在GitHub上发布,供研究社区参考和使用。

论文地址:https://arxiv.org/pdf/2311.04939

代码地址:https://github.com/bigai-nlco/LooGLE