OpenAI GPT-4性能问题承认，修复计划发布

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月11号 14:39

OpenAI GPT-4因性能问题受到用户投诉，承认问题并将其归因于训练数据变更。修复计划未明确，但高度重视。竞争对手Gemini1.0备受关注。开发大型语言模型的复杂性成为突出问题。

OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

近期，关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果，而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。事件的起因是 xAI 在其博客上发布了一张图表，展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑，但它仍然被广泛用来评估模型的数学能力。xAI 的图表显示，Grok3的两个变体 ——Grok3Rea

OpenAI 最新研究揭示：最先进的 AI 仍难以解决编码问题

近日，OpenAI 的研究人员在一篇新发布的论文中坦言，尽管目前的 AI 技术已经相当先进，但这些模型依然无法与人类程序员相媲美。OpenAI 首席执行官山姆・阿尔特曼曾表示，预计到今年底，AI 将能够战胜 “低级” 软件工程师，但研究结果却显示，这些 AI 模型仍然面临重大挑战。图源备注：图片由AI生成，图片授权服务商Midjourney在研究中，OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试，评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。该测试重点考察了三个大型语言模

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

AI新闻资讯