最近,一个简单的数学问题——"13.8和13.11哪个大?"——不仅难倒了部分人类,也让许多大型语言模型(LLM)陷入了困境。这个问题引发了对AI在处理常识性问题上的能力的广泛讨论。

在一档知名综艺节目中,这个问题引发了网友的热议。许多人认为13.11%应该比13.8%大,但事实上,13.8%更大。

1.jpg

AI2的研究员林禹臣发现,即使是大型语言模型,如GPT-4o,也会在这个简单的比较问题上犯错误。GPT-4o错误地认为13.11比13.8大,并给出了错误的解释。

2.jpg

林禹臣的发现迅速在AI社区引起了热烈讨论。许多其他大型语言模型,如Gemini、Claude3.5Sonnet等,也在这个简单的比较问题上犯了同样的错误。

这个问题的出现揭示了AI在处理看似简单但实际涉及精确数值比较的任务时可能遇到的困难。

尽管人工智能在许多领域取得了显著的进步,比如自然语言理解、图像识别和复杂的决策制定等,但在基本的数学运算和逻辑推理方面,它们仍然可能犯错,显示出当前技术的局限性。

QQ截图20240717135712.jpg

为什么AI会犯这样的错误?

训练数据的偏差:AI模型的训练数据可能没有包含足够的示例来正确处理这类特定的数值比较问题。如果模型在训练期间接触到的数据主要表明较大的数字总是有较多的小数位数,那么它可能会错误地将更多的小数位解释为更大的值。

浮点精度问题:在计算机科学中,浮点数的表示和计算涉及到精度问题。即使是微小的差异也可能在比较时造成错误的结果,尤其是在没有明确指定精度的情况下。

上下文理解不足:尽管上下文清晰度在这个案例中可能不是主要问题,但AI模型通常需要根据上下文来正确解释信息。如果问题的表述方式不够明确或者与AI在训练数据中常见的模式不匹配,可能会导致误解。

Prompt设计的影响:如何向AI提出问题对于获得正确答案至关重要。不同的提问方式可能会影响AI的理解程度和回答的准确性。

如何改进?

改善训练数据:通过提供更多样化、更准确的训练数据,可以帮助AI模型更好地理解数值比较和其他基本数学概念。

优化Prompt设计:精心设计的问题表述可以提高AI给出正确答案的机会。例如,使用更明确的数值表示和提问方式可以减少歧义。

提高数值处理的准确性:开发和采用能够更准确处理浮点数运算的算法和技术,以减少计算误差。

增强逻辑和常识推理能力:通过专门针对逻辑和常识推理的训练,增强AI在这些领域的能力,使其能够更好地理解和处理与常识相关的任务。