AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-12-20 16:10:44.AIbase

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

智源与腾讯推出长文本理解基准测试模型LongBench v2

2024-08-07 16:35:17.AIbase

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

长语境理解是自然语言处理领域的关键挑战，尤其是在大型语言模型（LLMs）处理超出其上下文窗口大小的文本时。为解决这一问题，研究人员开发了LooGLE基准测试，旨在评估LLMs在处理超长文档（平均19.3k单词，共776篇，覆盖多领域）时的长语境理解能力。LooGLE包含7个任务，涵盖短依赖和长依赖，评估模型对不同长度文本的理解。测试数据来源于2022年后的开源文档，确保LLMs未在预训练中接触，以此更准确评估其语境学习能力。研究发现，商业模型在性能上领先于开源模型，LLMs在短依赖任务上表现良好，但在长依赖任务上存在挑战。基于检索的技术在短问题回答中表现突出，而扩展上下文窗口的策略对长语境理解的提升有限。LooGLE提供了评估LLMs长语境理解能力的系统方案，并在GitHub上公开了评估代码，为未来模型开发提供指导。

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

2024-07-25 09:51:46.AIbase

Nvidia AI推ChatQA2:基于Llama3模型，长文本理解和RAG能力媲美GPT-4

Nvidia AI推出的ChatQA2模型，针对人工智能发展中长文本上下文理解和检索增强生成的关键挑战，基于Llama3模型进行优化。通过将上下文窗口扩展至128K tokens并采用三阶段指令调整过程，模型显著提升了指令遵循能力、RAG性能和长文本理解能力。在InfiniteBench评估中，ChatQA2展现出与GPT-4-Turbo-2024-0409相媲美的准确性，并在RAG基准测试中超越之，解决了长文本处理中的上下文碎片化和低召回率问题。该模型通过使用先进检索器提高检索准确性和效率，实现了与GPT-4-Turbo相当的性能，为各种下游任务提供了灵活解决方案。

Nvidia AI推ChatQA2:基于Llama3模型，长文本理解和RAG能力媲美GPT-4