科幻电影《Her》中的情景似乎正在走进现实。GPT-4o的语音功能终于开启了灰度测试,一些ChatGPT Plus用户已经抢先体验了这一激动人心的新功能。OpenAI的这一创新,不仅让AI能讲笑话、学猫叫,甚至还能作为"二外教练"帮助练习口语。

GPT-4o的语音模式带来了更加自然、实时的对话体验。用户可以随意打断AI,它甚至能感知并回应用户的情绪。预计今年秋季,所有ChatGPT Plus用户都将能使用这一功能。更让人期待的是,视频和屏幕共享功能也将在不久后推出,届时用户可以与ChatGPT实现"面对面"的交流。

image.png

GPT-4o的输出能力也得到了大幅提升。新模型的输出token数量从4000个暴涨至64000个,这意味着一次性可以获得相当于4个完整长篇电影剧本的内容。OpenAI在官方网页中悄然推出了这一测试版新模型gpt-4o-64k-output-alpha。

为了确保安全性和质量,OpenAI在过去几个月里一直在对GPT-4o语音功能进行严格的测试。他们与100多名红队人员,对45种语言进行了测试,并训练模型只使用4种预设声音说话,以保护用户隐私。此外,内容过滤也是必不可少的,团队采取措施阻止了暴力和版权相关内容的生成。

网友们对GPT-4o语音模式的实测结果令人印象深刻。有人发现它可以快速回答问题,几乎没有延迟;有人用它来模仿不同的声音和口音;还有人让它充当足球比赛解说员,甚至用中文生动地讲故事。这些案例展示了GPT-4o在语音识别和生成方面的强大能力。

值得一提的是,尽管OpenAI声称视频和屏幕共享功能将稍后推出,但一些网友已经提前体验到了这些功能。例如,一位网友向ChatGPT展示了自己为新宠物猫咪准备的小窝,ChatGPT在看过后评价道"一定非常舒适",并关心地询问猫咪的情况。

此外,GPT-4o的长输出功能也悄悄上线了。OpenAI正式宣布向测试者提供GPT-4o Alpha版本,每次请求支持最多输出64K token,相当于200页小说。这一功能的推出,是基于用户对于更长输出内容的需求。

然而,更长的输出也意味着更高的计算量和价格。GPT-4o Long Output的价格每百万输入token为6美元,每百万输出token为18美元,相较于之前的模型有所上涨。尽管如此,一些研究员认为长输出主要用于数据转换等用例,对于编写代码、改进写作等场景非常有帮助。

总的来说,GPT-4o的语音功能和长输出能力,无疑将为用户带来更加丰富、便捷的交互体验。我们有理由相信,随着技术的不断进步,AI将在更多领域展现出其独特的价值。