Emmett Shear接任OpenAI CEO,公司面临领导层动荡

近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。事件的起因是 xAI 在其博客上发布了一张图表,展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑,但它仍然被广泛用来评估模型的数学能力。xAI 的图表显示,Grok3的两个变体 ——Grok3Rea
据多家媒体报道,美国国家标准与技术研究所(NIST)计划裁减多达500名员工,这一决定进一步威胁到刚刚起步的美国人工智能安全研究所(AISI)。Axios 的报道称,AISI 和 “美国芯片计划” 将面临针对试用期员工的 “重大” 裁员,这些员工通常是在职一至两年的新员工。Bloomberg 则表示,部分员工已经收到了即将被解雇的口头通知。在最新裁员消息之前,AISI 的未来已经充满不确定性。该研究所成立于去年,旨在研究人工智能开发中的风险并制定相应标准,其成立是依据时任总统乔・拜登关于
近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模
OpenAI 于上周五宣布,正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展,旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来,便备受关注,成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作,包括订票、预订餐厅、提交费用报告,甚至在电子商务网站上购物。这些功能不仅