近日,OpenAI 推出了备受期待的 AI 模型,此前代号为 “草莓”,正式名称为 “o1-preview”。

OpenAI 承诺这款新模型在物理、化学和生物学等难度较大的基准任务上表现不亚于博士生。然而,初步测试的结果显示,这款 AI 离替代人类科学家或程序员的目标仍有很大距离。

社交媒体上,许多用户分享了他们与 “OpenAI o1” AI 的互动体验,结果显示该模型在基本任务上依然表现不佳。

例如,INSA Rennes 的研究员 Mathieu Acher 发现,OpenAI o1在解决某些棋类谜题时,频繁提出非法的棋步。

image.png

而 Meta AI 科学家 Colin Fraser 则指出,在一个关于农民过河运送羊的简单文字谜题中,这款 AI 竟然放弃了正确答案,转而给出一些毫无逻辑的胡言乱语。

image.png

甚至在 OpenAI 用作演示的逻辑谜题中,涉及到草莓的提问也让用户获得了不同的答案,其中一位用户发现该模型的错误率高达75%。

image.png

不仅如此,部分用户反映这款新模型甚至在计算字母 “R” 在 “strawberry” 这个单词中出现的次数时,也常常出错。

image.png

虽然 OpenAI 在发布时表示这是一个早期模型,尚未具备如网页浏览、文件上传等功能,但这样的基础性错误仍让人感到惊讶。

为了改进,OpenAI 在新模型中引入了 “思维链” 过程,使得 OpenAI o1与之前的 GPT-4o 模型有了显著区别。这种方法让 AI 在得出答案前,可以反复推敲,虽然这也导致其响应时间延长。

有用户发现,该模型竟然花费了92秒才给出一个文字谜题的答案,但结果却依然错误。

image.png

OpenAI 的研究科学家 Noam Brown 对此表示,虽然目前的响应速度较慢,但他们期望未来的版本能进行更长时间的思考,甚至能在突破性问题上提供新见解。

不过,著名 AI 评论家 Gary Marcus 对此持怀疑态度,认为长时间的处理并不一定能带来超越性的推理能力。他强调,尽管 AI 技术不断发展,现实中的研究和实验仍然不可或缺。

可见,在实际使用中,OpenAI 的这款新 AI 模型在各方面的表现仍让人失望,而这也引发了关于 AI 技术未来发展的讨论。

划重点:

🌟 近日,OpenAI 推出新 AI 模型 “草莓”,声称在复杂任务上能与博士生相媲美。

🤖 许多用户发现,这款 AI 在基本任务上频频出错,如提出非法棋步和错误回答简单谜题。

💬 OpenAI 承认该模型仍在发展中,但长时间思考未必能提高推理能力,许多基础问题仍未解决。