近日,多家人工智能大模型在进行简单数字比较时出现错误引发广泛关注。包括字节豆包、GPT4o、月之暗面Kimi、阶跃星辰跃问、百川智能百小应等在内的多个知名AI模型,在回答"9.11和9.9哪个更大"这样的基础问题时均给出了错误答案。此外,此前有用户发现多个大模型在回答"strawberry"一词中有几个"r"时也出现了错误。
图源备注:图片由AI生成,图片授权服务商Midjourney
针对这一现象,月之暗面公司做出回应。该公司表示,人类对大模型能力的探索仍处于非常早期的阶段,无论是了解大模型能做到什么,还是不能做到什么,都需要更多的研究和测试。
月之暗面强调,他们非常欢迎用户在使用过程中发现和报告更多的边界案例(Corner Case)。这些案例,无论是近期的数字比较问题,还是之前的单词拼写问题,都有助于增进对大模型能力边界的理解。
然而,月之暗面指出,要彻底解决这些问题,不能仅仅依赖于逐一修复每个案例。他们认为,这些情况就像自动驾驶会遇到的场景一样,是很难穷尽的。因此,更重要的是不断增强底层基础模型的智能水平,使大模型变得更加强大和全面,能够在各种复杂和极端情况下依然表现出色。
这一事件引发了业界对AI大模型基础能力的讨论,也凸显了当前AI技术在处理某些看似简单的任务时仍面临挑战。随着研究的深入和技术的进步,相信这些问题将逐步得到改善。