OpenAI又放大招了!他们最新推出的GPT-4o mini,号称是“最经济适用”的小型模型。这不仅仅是一个模型的升级,更像是一场智能革命的开始。今天,就让我们一起来揭开GPT-4o mini的神秘面纱,看看它如何让智能更“接地气”。

QQ截图20240719092011.jpg

更聪明,更省钱

OpenAI的愿景是让智能无处不在,而GPT-4o mini正是这一愿景的最新实践。这款模型不仅在成本上大幅降低,性能上也毫不逊色。它的价格仅为每百万输入令牌15美分,每百万输出令牌60美分,比之前的前沿模型便宜了一个数量级,比GPT-3.5Turbo更是便宜了60%以上。

image.png

GPT-4o mini的低成本和低延迟使其能够胜任广泛的任务,比如串联或并行调用多个模型(比如调用多个API)、传递大量上下文给模型(比如整个代码库或对话历史),或是通过快速的实时文本响应与客户互动(比如客户支持聊天机器人)。

目前,GPT-4o mini支持文本和视觉API,未来还将支持文本、图像、视频和音频的输入输出。模型具有128K令牌的上下文窗口,每个请求支持高达16K的输出令牌,并且知识截止日期为2023年10月。得益于与GPT-4o共享的改进分词器,处理非英语文本现在更加经济高效。

image.png

小身材,大智慧

GPT-4o mini在学术基准测试中超越了GPT-3.5Turbo和其他小型模型,无论是文本智能还是多模态推理。它还支持与GPT-4o相同的语言范围,并在函数调用方面表现出色,这可以使得开发者能够构建能够与外部系统获取数据或执行操作的应用程序,并与GPT-3.5Turbo相比,改善了长上下文性能。

在关键基准测试中,GPT-4o mini的表现如下:

  • 推理任务:在涉及文本和视觉的推理任务中,GPT-4o mini得分82.0%,而Gemini Flash为77.9%,Claude Haiku为73.8%。

  • 数学和编码能力:在数学推理和编码任务中,GPT-4o mini同样表现出色。在MGSM(数学推理)测试中,得分87.0%,而Gemini Flash为75.5%,Claude Haiku为71.7%。在HumanEval(编码性能)测试中,得分87.2%,而Gemini Flash为71.5%,Claude Haiku为75.9%。

  • 多模态推理:在MMMU(多模态推理评估)中,GPT-4o mini得分59.4%,而Gemini Flash为56.1%,Claude Haiku为50.2%。

内置安全措施

安全始终是openAI模型开发的核心。在预训练阶段,openAI过滤掉不希望模型学习或输出的信息,比如仇恨言论、成人内容、主要聚合个人信息的网站和垃圾邮件。在训练后,openAI使用强化学习与人类反馈(RLHF)等技术,使模型的行为与openAI的政策保持一致,提高模型响应的准确性和可靠性。

GPT-4o mini内置了与GPT-4o相同的安全缓解措施,openAI根据原先的准备框架和自愿承诺,通过自动化和人类评估进行了仔细评估。超过70名社会心理学和错误信息等领域的外部专家测试了GPT-4o,以识别潜在风险,目前,openAI已经解决这些问题,并计划在即将发布的GPT-4o系统卡和准备就绪分数卡中分享详细信息。这些专家评估的见解帮助提高了GPT-4o和GPT-4o mini的安全性。

可用性和定价

GPT-4o mini现在作为文本和视觉模型在助手API、聊天完成API和批量API中可用。开发者支付每1M输入令牌15美分,每1M输出令牌60美分(大约相当于标准书中的2500页)。我们计划在未来几天内为GPT-4o mini推出微调功能。

在ChatGPT中,免费、Plus和团队用户将能够从今天开始访问GPT-4o mini,取代GPT-3.5。企业用户也将从下周开始访问,这符合openAI让所有人都能享受到AI带来的好处的使命。

未来展望

OpenAI团队表示:“在过去的几年里,我们见证了AI智能的显著进步,同时成本大幅降低。例如,自2022年推出的功能较弱的text-davinci-003模型以来,GPT-4o mini的每令牌成本已经下降了99%。我们致力于继续降低成本,同时增强模型能力。”

“我们设想的未来是模型无缝集成到每个应用程序和每个网站中。GPT-4o mini为开发者更高效、更经济地构建和扩展强大的AI应用程序铺平了道路。AI的未来正变得更加可访问、可靠,并嵌入我们的日常生活数字体验中,我们很高兴继续引领这一潮流。”