OpenAI推全新AI基准SimpleQA：测评语言模型的事实准确性

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月31号 14:28

162

最近，OpenAI 发布了一个名为 SimpleQA 的新基准测试，旨在评估语言模型生成回答的事实准确性。

随着大型语言模型的快速发展，确保生成内容的准确性面临着诸多挑战，尤其是那些所谓的 “幻觉” 现象，即模型生成了听起来很自信但实际上是错误或不可验证的信息。这种情况在越来越多的人依赖 AI 获取信息的背景下，变得尤为重要。

SimpleQA 的设计特色在于它专注于短小、明确的问题，这些问题通常有一个确凿的答案，这样就能更容易地评估模型的回答是否正确。与其他基准不同，SimpleQA 的问题是经过精心设计的，旨在让即便是最先进的模型如 GPT-4也会面临挑战。这个基准包含了4326个问题，覆盖历史、科学、技术、艺术和娱乐等多个领域，特别注重评估模型的精准度和校准能力。

SimpleQA 的设计遵循了一些关键原则。首先，每个问题都有一个由两个独立的 AI 训练师确定的参考答案，确保了答案的正确性。

其次，问题的设置避免了模糊性，每个问题都能用一个简单明确的答案来回答，这样评分就变得相对容易。此外，SimpleQA 还使用了 ChatGPT 分类器来进行评分，明确标记回答为 “正确”、“错误” 或 “未尝试”。

SimpleQA 的另一个优势是它涵盖了多样化的问题，防止模型过度专门化，确保全面评估。这一数据集的使用简单，因为问题和答案都很简短，使得测试运行快速且结果变化小。而且，SimpleQA 还考虑了信息的长期相关性，从而避免了因信息变化而导致的影响，使其成为一个 “常青” 的基准。

SimpleQA 的发布是推动 AI 生成信息可靠性的重要一步。它不仅提供了一个易于使用的基准测试，更为研究人员和开发者设定了一个高标准，鼓励他们创建不仅能生成语言而且能做到真实准确的模型。通过开放源代码，SimpleQA 为 AI 社区提供了一个宝贵的工具，帮助提升语言模型的事实准确性，以确保未来的 AI 系统既能提供信息又值得信赖。

项目入口:https://github.com/openai/simple-evals

详情页:https://openai.com/index/introducing-simpleqa/

划重点:
📊 SimpleQA 是 OpenAI 推出的全新基准，专注于评估语言模型的事实准确性。
🧠 该基准由4326个短小明确的问题组成，覆盖多个领域，确保全面评估。
🔍 SimpleQA 帮助研究者识别和提升语言模型在生成准确内容方面的能力。

OpenAI o3 模型：每个任务消耗相当于五箱油的能源

随着人工智能的不断进步，创新与可持续发展之间的平衡成为了一项重要挑战。最近，OpenAI 推出了其最新的 AI 模型 o3，这是迄今为止最强大的模型。然而，除了运行这些模型的成本外，其对环境的影响也引起了广泛关注。一项研究显示，每个 o3任务大约消耗1，785千瓦时的电能，这相当于一个美国普通家庭在两个月内的用电量。根据 Salesforce 的 AI 可持续发展负责人 Boris Gamazaychikov 的分析，这一电能消耗大约对应684千克的二氧化碳当量排放，这与五箱满油的汽油的碳排放量相当。o3的高计算

AI赛道加速商业化：OpenAI的转型困境与突围之路

一场意外的人事变动，让OpenAI首席产品官Kevin Weil临时登上了旧金山万豪酒店的演讲台。这位曾在Twitter和Instagram创造商业奇迹的硅谷产品大师，如今肩负着OpenAI商业化转型的重任。而就在几天前，公司CTO Mira Murati的突然离职，再次将OpenAI置于风口浪尖。这起高管变动并非偶然。过去一年，OpenAI经历了一波又一波的人才流失，包括CTO、AGI就绪主管以及Sora视频生成模型的联合负责人等重量级人物相继离职。这背后折射出公司内部长期存在的理念之争:是坚持非营利性质的AI实验室初心，还是转向

OpenAI发布嵌入式SDK 2元芯片变9元，智能硬件要“炸”了！

OpenAI最新推出的Realtime Embedded SDK在业界掀起波澜，这款面向微控制器的开发工具包让人工智能与微型硬件的结合迈入新阶段。该SDK专门针对ESP32等微控制器设计，通过WiFi连接即可实现设备与云端AI模型的实时交互，大大降低了智能硬件开发的技术门槛。这一消息迅速引发市场连锁反应。ESP32相关硬件价格应声上涨，包括模组、芯片和配套的音频放大器、麦克风等设备均出现不同程度的涨价。其中音频解码芯片的价格从原来的2元飙升至9元以上，多款ESP32开发板更是出现全网断货。作为ESP32芯片

OpenAI o3发布傅盛：击败99.9%的程序员程序员将“不存在”

OpenAI在经过12天的技术分享直播活动后，于最后一天发布了其下一代推理模型o3，这是继早前发布的o1推理模型之后的升级版本。o3模型系列包括o3和o3-mini两个版本，其中o3-mini是针对特定任务进行微调的更小的精简版模型。OpenAI表示，o3模型在某些条件下可以接近实现通用人工智能（AGI），即能完成人类所能完成的任何任务的人工智能。

AI新闻资讯

​OpenAI推全新AI基准SimpleQA：测评语言模型的事实准确性