zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-14 09:05:30
.
AIbase
.
12.3k
苹果研究揭示:大语言模型推理能力严重缺陷
最近,苹果公司进行了一项关于大语言模型(LLM)推理能力的研究,引发了人们对这些模型在数学领域表现的关注。众所周知,GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力。尽管 LLM 在 GSM8K 上的表现近年来有所提高,但研究人员对此结果的可靠性产生了质疑。因此,他们进行了大规模的研究,探讨当前最先进的开源和闭源模型的表现。为了更好地评估模型的推理能力,研究团队引入了一种改进的基准测试 ——GSM-Symbolic。这个新基准测试使用符号模板生成多样化的问题,
2024-07-12 09:36:37
.
AIbase
.
10.2k
大语言模型推理能力被高估了 在不熟悉场景中有很大的弱点
近期,麻省理工学院研究团队对大型语言模型(LLMs)在不同任务下的表现进行了深入探讨。研究发现,LLMs在熟悉任务上表现良好,但却在面对非典型或未知情境时显现出推理能力的严重局限。通过比较“默认任务”与“反事实场景”,以及调整任务设计以测试模型反应,结果表明,尽管模型在十进制算术运算相当出色,但在非十进制环境以及音乐、空间推理和国际象棋等其他任务中表现出完全不同的表现。模型的不稳定表现和对训练数据的直接记忆依赖,揭示了其在面对变动环境中较为有限的逻辑应用能力。研究主要作者指出,LLMs更加擅长于在熟悉场景下利用已知信息,而非灵活运用逻辑推理处理环境变化。这一发现对未来模型设计具有重要意义,尤其是在适应性和多任务处理能力提升方面,并指出了研究领域的新方向,力图构建更具普适性和鲁棒性的AI模型原型,应对真实世界复杂多变的挑战。当前研究的局限性在于对候选模型评估的维度和环境的限制,未来需进一步扩大评估范围,以全面揭示模型在真实世界应用中的潜在限制。
2024-02-26 11:51:52
.
AIbase
.
5.6k
DeepMind发现提升语言模型推理能力的简单方法
["深度学习研究人员发现,语言模型在逻辑推理方面的表现仍然是一个重要挑战。","最新研究揭示了任务中前提顺序对语言模型的逻辑推理性能产生显著影响。","研究结果可能指导专家在使用语言模型进行基本推理任务时的决策。"]
2024-01-05 10:31:02
.
AIbase
.
4.7k
英特尔Gaudi2在大规模语言模型推理中超越竞争对手
["英特尔的Gaudi2技术在大规模语言模型推理方面与英伟达的AI加速器相媲美。","Gaudi2推理性能优于英伟达A100,且内存带宽利用率更高。","训练和推理方面的性价比均超过英伟达A100和H100。","新数据验证英特尔在大规模语言模型推理中的性能表现。","Gaudi3技术预计将于2024年推出,带来巨大性能飞跃。"]
2024-01-05 10:24:34
.
AIbase
.
4.7k
英特尔Gaudi2技术在语言模型推理中超越英伟达
["研究显示,英特尔的Gaudi2技术在大规模语言模型推理方面与英伟达的AI加速器相媲美。","Gaudi2的推理性能在解码方面与英伟达H100系统相当,并且优于英伟达A100。","根据公共云定价,Gaudi2在训练和推理方面的性价比都超过了英伟达的A100和H100。","英特尔Gaudi3计划于2024年推出,将提供4倍的处理能力和双倍的网络带宽。","英特尔致力于将高性能计算和AI加速器技术融合,并看好用于AI推理工作负载的CPU技术。"]