近期,OpenAI 发布了一项关于其最新推理模型 o3的研究,展示了大型语言模型(LLM)如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。o3在著名编程平台 CodeForces 上取得了2724的评分,位于前99.8% 的百分位,表现相当出色,并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。

OpenAI

图源备注:图片由AI生成,图片授权服务商Midjourney

研究表明,o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型,这一结果表明,通过强化学习取得的成就要优于手工设计的解决方案。在 IOI2024赛事中,o3在标准条件下参与竞争,成功地跨越了金牌的门槛。同时,它在 CodeForces 上也跻身全球前200名程序员之列,能够与顶尖人类程序员展开角逐。

来自沃顿商学院的副教授 Ethan Mollick 表示:“通过强化学习发展起来的通用推理能力,现已超过了那些经过精心设计的领域特定解决方案。与其为特定任务构建专门的系统,不如通过更强的推理能力来让大型通用模型实现更优的结果。”

此次研究是 OpenAI 对其模型在竞争编程和更广泛软件工程领域表现进行评估的一部分。此外,另一家公司 Anthropic 也在本周一发布了一份关于 AI 对职场影响的报告。报告指出,约36% 的职业在至少25% 的工作任务中使用了 AI,而57% 的 AI 应用则提升了人类的能力,43% 的应用则专注于自动化。尽管如此,只有4% 的职业中,AI 被用于至少75% 的工作任务。

这项研究还表明,软件开发和技术写作是 AI 应用的主要领域,而在涉及与环境进行物理互动的任务中,AI 的作用则相对较小。

划重点:  

💻 o3模型在 CodeForces 上获得2724评分,位于前99.8% 的百分位,并在国际信息学奥林匹克中获得金牌。  

📊 强化学习的效果超越了传统的手工设计解决方案,展示出通用推理能力的优势。  

📈 AI 在职场中的应用广泛,软件开发和技术写作是其主要领域,但在物理互动任务中的应用较少。