zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-10-31 14:28:43
.
AIbase
.
12.9k
OpenAI推全新AI基准SimpleQA:测评语言模型的事实准确性
最近,OpenAI 发布了一个名为 SimpleQA 的新基准测试,旨在评估语言模型生成回答的事实准确性。随着大型语言模型的快速发展,确保生成内容的准确性面临着诸多挑战,尤其是那些所谓的 “幻觉” 现象,即模型生成了听起来很自信但实际上是错误或不可验证的信息。这种情况在越来越多的人依赖 AI 获取信息的背景下,变得尤为重要。SimpleQA 的设计特色在于它专注于短小、明确的问题,这些问题通常有一个确凿的答案,这样就能更容易地评估模型的回答是否正确。与其他基准不同,SimpleQA
2024-10-31 09:52:35
.
AIbase
.
12.9k
最新研究:AI 模型在回答事实问题时表现拉胯, GPT-4o准确率才38.2%
最近,一项由 OpenAI 进行的研究显示,尽管人工智能技术飞速发展,当前最先进的语言模型在回答事实问题时的成功率却远低于预期。研究采用了 OpenAI 自家的 SimpleQA 基准测试,这个测试包含了4,326个,涵盖了科学、政治和艺术等多个领域,每个问题都有一个明确的正确答案。经过两名独立评审员的验证,结果显示,OpenAI 最好的模型 o1-preview 的准确率仅为42.7%,而 GPT-4o 则略低,只有38.2%。至于更小的 GPT-4o-mini,准确率甚至只有8.6%。相比之下,Anthropic 的 Claude 模型表现得更差,Claude-3.5-sonn