高质量数据才是王道！EPFL 研究：训练数据对大模型性能至关重要！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月21号 10:42

105

瑞士洛桑联邦理工学院（EPFL）的一项最新研究比较了两种主流的大型语言模型 (LLM) 适应性训练方法:上下文学习 (ICL) 和指令微调 (IFT)。研究人员使用 MT-Bench 基准测试来评估模型遵循指令的能力，发现在特定情况下，两种方法的表现各有优劣。

研究发现，当可用的训练样本数量较少时（例如不超过50个），ICL 和 IFT 的效果非常接近。这表明在数据有限的情况下，ICL 或许可以作为 IFT 的替代方案。

然而，随着任务复杂度的增加，例如在多轮对话场景中，IFT 的优势就变得明显。研究人员认为，ICL 模型容易过度拟合到单个样本的风格，导致在处理复杂对话时表现不佳，甚至不如基础模型。

研究还考察了 URIAL 方法，这种方法仅使用三个样本和指令遵循规则来训练基础语言模型。虽然 URIAL 取得了一定的效果，但与经过 IFT 训练的模型相比仍有差距。EPFL 的研究人员通过改进样本选择策略，提升了 URIAL 的性能，使其接近微调模型。这凸显了高质量训练数据对 ICL、IFT 以及基础模型训练的重要性。

此外，研究还发现解码参数对模型性能有显著影响。这些参数决定了模型如何生成文本，对基础 LLM 和使用 URIAL 训练的模型都至关重要。

研究人员指出，即使是基础模型，在合适的解码参数下也能在一定程度上遵循指令。

这项研究的意义在于，它揭示了上下文学习可以快速有效地调整语言模型，尤其是在训练样本有限的情况下。但对于多轮对话等复杂任务，指令微调仍然是更优的选择。

随着数据集规模的扩大，IFT 的性能会持续提升，而 ICL 的性能在达到一定样本数量后会趋于稳定。研究人员强调，选择 ICL 还是 IFT 取决于多种因素，例如可用资源、数据量和具体应用需求。无论选择哪种方法，高质量的训练数据都至关重要。

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。为了解决这一问题，Meta 等机构的研究者们提出了一种名为 “连续概念混合”（CoCoMix）的新颖预训练框架。这一方法不仅保留了下一个 token 预测的优点，还引入了

AI新闻资讯