AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-10-14 14:51:30.AIbase

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

最近，苹果公司的研究人员对大语言模型（LLM）的数学推理能力进行了深入研究，推出了一项名为 GSM-Symbolic 的新基准测试。这个新基准测试是在 GSM8K 的基础上发展的，后者主要用于评估基础数学能力。虽然许多 LLM 在 GSM8K 上的表现有所提升，但科学界对这些模型的推理能力仍然存有疑问，认为现有的评估指标可能无法全面反映它们的真实能力。研究发现，LLM 通常依赖于概率模式匹配，而非真正的逻辑推理，导致它们对输入的小变化非常敏感。在这项新研究中，研究人员使用符号模板生成

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

2024-10-14 09:05:30.AIbase

苹果研究揭示:大语言模型推理能力严重缺陷

最近，苹果公司进行了一项关于大语言模型（LLM）推理能力的研究，引发了人们对这些模型在数学领域表现的关注。众所周知，GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高，但研究人员对此结果的可靠性产生了质疑。因此，他们进行了大规模的研究，探讨当前最先进的开源和闭源模型的表现。为了更好地评估模型的推理能力，研究团队引入了一种改进的基准测试 ——GSM-Symbolic。这个新基准测试使用符号模板生成多样化的问题，

苹果研究揭示:大语言模型推理能力严重缺陷

2024-10-08 09:16:16.AIbase

新研究揭示小型 AI 语言模型在推理能力上的重大缺陷

最近，米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了深入调查，发现小型和便宜的模型在解决复杂问题时存在显著不足。这项研究的是一个名为 “组合 GSM” 的测试，目的是评估这些模型在解决链式的基础数学问题方面的表现。图源备注:图片由AI生成，图片授权服务商Midjourney研究人员结合了 GSM8K 数据集中的两个问题，使用第一个问题的答案作为第二个问题的变量进行测试。结果显示，大多数模型在这些复杂的推理任务中表现远低于预期，尤其是在小型

新研究揭示小型 AI 语言模型在推理能力上的重大缺陷