zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-08-07 16:35:17
.
AIbase
.
10.9k
北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!
长语境理解是自然语言处理领域的关键挑战,尤其是在大型语言模型(LLMs)处理超出其上下文窗口大小的文本时。为解决这一问题,研究人员开发了LooGLE基准测试,旨在评估LLMs在处理超长文档(平均19.3k单词,共776篇,覆盖多领域)时的长语境理解能力。LooGLE包含7个任务,涵盖短依赖和长依赖,评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档,确保LLMs未在预训练中接触,以此更准确评估其语境学习能力。研究发现,商业模型在性能上领先于开源模型,LLMs在短依赖任务上表现良好,但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出,而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案,并在GitHub上公开了评估代码,为未来模型开发提供指导。
2024-07-25 09:51:46
.
AIbase
.
10.6k
Nvidia AI推ChatQA2:基于Llama3模型,长文本理解和RAG能力媲美GPT-4
Nvidia AI推出的ChatQA2模型,针对人工智能发展中长文本上下文理解和检索增强生成的关键挑战,基于Llama3模型进行优化。通过将上下文窗口扩展至128K tokens并采用三阶段指令调整过程,模型显著提升了指令遵循能力、RAG性能和长文本理解能力。在InfiniteBench评估中,ChatQA2展现出与GPT-4-Turbo-2024-0409相媲美的准确性,并在RAG基准测试中超越之,解决了长文本处理中的上下文碎片化和低召回率问题。该模型通过使用先进检索器提高检索准确性和效率,实现了与GPT-4-Turbo相当的性能,为各种下游任务提供了灵活解决方案。