zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-08-07 16:35:17
.
AIbase
.
10.9k
北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!
长语境理解是自然语言处理领域的关键挑战,尤其是在大型语言模型(LLMs)处理超出其上下文窗口大小的文本时。为解决这一问题,研究人员开发了LooGLE基准测试,旨在评估LLMs在处理超长文档(平均19.3k单词,共776篇,覆盖多领域)时的长语境理解能力。LooGLE包含7个任务,涵盖短依赖和长依赖,评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档,确保LLMs未在预训练中接触,以此更准确评估其语境学习能力。研究发现,商业模型在性能上领先于开源模型,LLMs在短依赖任务上表现良好,但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出,而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案,并在GitHub上公开了评估代码,为未来模型开发提供指导。