近日,谷歌的 Gemini 人工智能项目正在通过比较其输出结果与 Anthropic 公司的 Claude 模型来提升自身性能。据 TechCrunch 获得的内部通信记录显示,负责 Gemini 改进的承包商正在系统地评估这两种 AI 模型的回答。图源备注:图片由AI生成,图片授权服务商Midjourney在 AI 行业,模型的性能评估通常通过行业基准测试来进行,而不是让承包商逐一对比不同模型的答案。负责 Gemini 的承包商需要根据多个标准对模型的输出进行评分,包括真实性和详细程度。他们每次有多达30分钟的时间来判断 Gemini 和
一个被广泛视为人工智能缺陷的特性——"幻觉",竟成为科学突破的关键。据《财富》杂志报道,2024年诺贝尔化学奖得主之一的大卫·贝克教授,正是借助AI模型的"幻觉"特性实现了重大科研突破。来自华盛顿大学的贝克教授是今年三位诺贝尔化学奖得主中唯一的美国科学家。他利用计算机软件成功发明了新型蛋白质,这一成就最终为他赢得了这一殊荣。图源备注:图片由AI生成,图片授权服务商Midjourney通常情况下,AI模型的"幻觉"——即生成虚假或不准确信息的倾向——被认为是一个严重的
OpenAI 发布的最新模型 o3在 ARC-AGI 基准测试中取得了惊人的成绩,标准计算条件下得分高达75.7%,而高计算版本更是达到了87.5%。这一成就令 AI 研究界感到意外,但仍无法证明人工智能通用性(AGI)已被破解。ARC-AGI 基准测试基于抽象推理库(Abstract Reasoning Corpus),该测试旨在评估 AI 系统适应新任务和展示流动智力的能力。ARC 包含一系列视觉谜题,需要理解基本概念如物体、边界和空间关系。人类能够轻松解决这些谜题,而目前的 AI 系统在这方面却面临很大挑战。ARC 被认为是 AI 评估中最
据TechCrunch获得的内部通讯显示,谷歌正让承包商将其Gemini AI与Anthropic的Claude进行对比评测,此举引发了合规性质疑。文件显示,负责改进Gemini的承包商需要在30分钟内根据真实性和详尽度等多个标准,对比评估Gemini和Claude的回答质量。承包商近期在谷歌内部评测平台上发现了明确提及Claude的内容,其中包含"我是Claude,由Anthropic创建"的字样。内部讨论显示,承包商注意到Claude在安全方面的表现更为严格。有承包商称"Claude的安全设置是所有AI模型中最严格的"。在某些案例中,当Gemini的回答因