智源与腾讯推出长文本理解基准测试模型LongBench v2

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月20号 16:10

179

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

LongBench v2的显著特点包括支持更长的文本长度，范围从8k到2M个词，且包含503个具有挑战性的四选一选择题，难度较高，连人类专家在15分钟内的平均准确率也仅为53.7%。此外，该基准测试涵盖了六个主要任务类别，包括单文档问答、多文档问答、长文本语境学习等，确保了广泛的应用场景。

微信截图_20241220160723.png

为了保证评估的可靠性，LongBench v2的所有问题均采用多项选择题形式，并经过严格的人工标注和审核流程。数据收集过程中，招募了来自顶尖大学的标注员，确保问题的质量和难度。通过引入控制变量，LongBench v2对原始Bradley-Terry统计算法进行了改进，降低了混淆因素的影响，使得模型排名更加科学和精准。

在评估结果方面，研究团队对10个开源LLMs和6个闭源LLMs进行了测试，发现引入控制变量后，模型的表现得到了显著提升。特别是GPT-4o模型在引入更多推理步骤后，在多文档问答和长文本语境学习等任务上表现出色，显示出推理能力的重要性。

LongBench v2的推出不仅为大语言模型的评估提供了新的工具，也为未来的研究指明了方向，强调了提升模型自身理解和推理能力的重要性。智源研究院和腾讯的合作，标志着在AI技术领域的进一步发展，期待这一基准测试能够推动长文本理解和推理技术的进步。

主页:https://longbench2.github.io

论文:https://arxiv.org/abs/2412.15204

数据与代码:https://github.com/THUDM/LongBench

仅次DeepSeek！腾讯元宝超越豆包位列苹果免费APP下载榜第二

今日，苹果应用商店免费APP下载排行榜上传来新消息，腾讯元宝凭借出色的表现，成功超越豆包，升至中国区榜单的第二位，仅次于持续稳居榜首的DeepSeek。这一成绩的取得，离不开腾讯元宝近期的一次重大更新。2月13日，腾讯元宝正式接入了满血版Deepseek - R1模型，这一核心亮点的加入，使得用户在打开腾讯元宝并进入对话界面后，能够免费体验到前所未有的便利与强大功能。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

腾讯手游《和平精英》将接入DeepSeek 2月25日开启灰测

腾讯旗下的战术竞技手游《和平精英》宣布，将接入先进的 AI 技术 DeepSeek，为其数字代言人 “吉莉” 注入更为智能的互动能力。根据官方计划，这一新功能将于2月25日启动灰度测试，预计在短期内向所有用户开放。“吉莉” 是《和平精英》的数字代言人，结合了国际超模和王牌狙击手的身份，她将常驻游戏大厅，与玩家进行全新形式的互动。这一创新正值《和平精英》上线六周年，游戏大厅也将开启名为 “吉事通” 的入口，依托 DeepSeek 的多模态大模型技术，实现与玩家的自然语言对话

腾讯文档接入DeepSeek 上线PPT直出、周报神器、文献速读功能

腾讯文档与DeepSeek-R1的结合实现了PPT的直接生成。用户无需再通过复杂的Markdown格式或在多个软件之间切换，只需在腾讯文档内输入主题和相关要求，DeepSeek-R1即可生成一份深度思考的PPT内容。例如，一位教师需要制作以“新学期要有勇气”

AI新闻资讯