研究发现，AI语音模型在归纳推理中表现出色，在演绎任务中“碰壁”

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 24, 2024

164

最近，加州大学洛杉矶分校和亚马逊的研究人员对大型语言模型（LLMs）的推理能力进行了深入分析。他们首次系统地区分了归纳推理和演绎推理这两种能力，探讨了这两者对 AI 系统的挑战程度。

AI换脸人脸识别 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

归纳推理是指从具体的观察中推导出一般性规律，而演绎推理则是将一般规则应用于特定案例。研究的目的是了解哪种推理能力对大型语言模型来说更具挑战性。为此，研究团队开发了一种新的方法，称为 “SolverLearner”。这种方法使得模型通过少量示例学习一种函数，将输入映射到输出。接着，外部程序使用这个函数，从而避免与演绎推理混淆。

研究结果显示，像 GPT-4这样的语言模型在归纳推理方面表现相当出色，使用 “SolverLearner” 方法的情况下，准确率几乎达到100%。不过，在演绎推理，尤其是 “反事实” 任务上，模型们就显得力不从心了。例如，模型在十进制的算术任务上表现良好，但在其他数字系统的计算中就遇到了困难。此外，模型在分析一些词序不寻常或空间取向改变的句子时，也显得不够灵活。

研究人员总结道，演绎推理对于当前的 LLMs 来说是一大挑战。正确应用已学的规则，往往取决于这些任务在训练过程中的出现频率。尽管使用了如链式思维等提示方法，能够稍微提高模型的演绎推理能力，但效果仍然不够理想。值得一提的是，最近发布的 OpenAI 新模型 o1并未参与此次测试。

另一项由俄亥俄州立大学和卡内基梅隆大学的研究人员进行的研究，考察了 Transformer 模型的逻辑推理能力。他们研究模型是否可以通过 “grokking” 来获取隐含推论的能力，特别是在组合和比较任务中。

结果显示，这些模型确实可以在经过长时间训练后获得隐含推论的能力，但只有在比较任务中能够对未见过的示例进行泛化。研究人员指出，这种差异与所学电路的内部结构有关，并建议对 Transformer 架构进行调整，以期望在初步实验中实现质量提升。

划重点:
🌟 LLMs 在归纳推理方面表现出色，准确率接近100%。
🧩 演绎推理依然是个挑战，尤其在处理反事实任务时。
🔍 另一项研究显示，Transformer 模型在组合任务中能够获得隐含推论能力，但泛化能力有限。

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、字节跳动发布SeedProver1.5:推动形式化数学推理的新进展字节跳动Seed团队推出的SeedProver1.5在形式化数学推理领域取得重要突破，其通过Agentic强化学习显著提升了推理能力和效率。该功能强调隐私保护，并仅对部分用户开放。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO品牌监控分析

GEO排名查询工具

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

研究发现，AI语音模型在归纳推理中表现出色，在演绎任务中“碰壁”

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

中兴押注AI手机！携手字节推“豆包手机”，开放生态或迎多模型共存时代

全国首个规划资源大模型“云宇星空”发布！6000亿参数，让城市规划“问不倒、调图快、识图准”

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

Jan团队发布Jan-v2-VL-Max！30B多模态模型专攻长周期Agent任务，长序列执行稳超Gemini 2.5 Pro

字节跳动发布 Seed Prover1.5:推动形式化数学推理的新进展

Alexa+大升级！2026年起整合Expedia、Yelp等四大平台，Amazon欲打造AI版“超级入口”

​长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

​Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”

面壁智能完成数亿元融资！端侧大模型加速落地，吉利、长安、大众已上车

相关AI新闻推荐

中兴押注AI手机！携手字节推“豆包手机”，开放生态或迎多模型共存时代

全国首个规划资源大模型“云宇星空”发布！6000亿参数，让城市规划“问不倒、调图快、识图准”

AI日报：字节发布Seed Prover1.5；MiniMax M2.1开源；通义开源语音交互大模型Fun-Audio-Chat-8B

阿里通义开源语音交互大模型Fun-Audio-Chat-8B！超低延迟，能读懂情绪

Jan团队发布Jan-v2-VL-Max！30B多模态模型专攻长周期Agent任务，长序列执行稳超Gemini 2.5 Pro

字节跳动发布 Seed Prover1.5:推动形式化数学推理的新进展

Alexa+大升级！2026年起整合Expedia、Yelp等四大平台，Amazon欲打造AI版“超级入口”

​长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

​Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”

面壁智能完成数亿元融资！端侧大模型加速落地，吉利、长安、大众已上车

长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”

长跑型 AI 登场：Jan 团队发布 Jan-v2-VL，深度优化多步任务执行力

Lima v2.0 重磅发布：从容器利器进化为安全 AI 工作流的“隐形盾牌”