AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

✓新闻资讯
产品应用

类型 :

✓新闻资讯
产品应用

2024-08-07 16:35:17.AIbase

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

长语境理解是自然语言处理领域的关键挑战，尤其是在大型语言模型（LLMs）处理超出其上下文窗口大小的文本时。为解决这一问题，研究人员开发了LooGLE基准测试，旨在评估LLMs在处理超长文档（平均19.3k单词，共776篇，覆盖多领域）时的长语境理解能力。LooGLE包含7个任务，涵盖短依赖和长依赖，评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档，确保LLMs未在预训练中接触，以此更准确评估其语境学习能力。研究发现，商业模型在性能上领先于开源模型，LLMs在短依赖任务上表现良好，但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出，而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案，并在GitHub上公开了评估代码，为未来模型开发提供指导。

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！