最近,一道简单的小学数学题却让不少AI大模型"翻了车",12个国内外知名的AI大模型中,8个模型在回答"9.11和9.9哪个大"这个问题时都答错了。

在测试中,大多数大模型在比较小数点后的数字时,错误地认为9.11大于9.9。即便是在明确限定为数学语境的情况下,一些大模型依然给出了错误答案。这暴露了大模型在数学能力上的短板。

image.png

这次测试的12个大模型中,包括阿里通义千问、百度文心一言、Minimax和腾讯元宝在内的4个模型答对了,而ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量等8个模型都答错了。

image.png

一些行业人士认为,大模型在数学问题上的表现不佳,可能是因为它们在设计上更像文科生而不是理科生。生成式的语言模型通常通过预测下一个词的方式进行训练,这使得它们在处理语言数据时表现出色,但在数学推理方面却显得力不从心。

image.png

对于这个问题,月之暗面回应称:其实我们人类对大模型的能力探索——无论是大模型能做到什么,还是大模型做不到什么——都还处于非常早期的阶段。

“我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的“9.9和9.11哪个大、13.8和13.11哪个大”,还是之前的’strawberry‘有几个’r‘,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。但要彻底解决问题,又不能仅仅依赖于逐一修复每个案例,原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的,我们更加要做的是不断增强底层基础模型的智能水平,让大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。”

image.png

一些专家认为,要提升大模型的数学能力,关键在于训练语料。大语言模型主要通过互联网上的文本数据进行训练,而这些数据中数学问题和解决方案相对较少。因此,未来大模型的训练需要更体系地构建,尤其是在复杂推理方面。