近期,开发 AI 数学基准的非营利组织 Epoch AI 因未及时披露其获得 OpenAI 资金而引发争议。该组织于12月20日宣布,OpenAI 资助了名为 FrontierMath 的项目,这是一项旨在测试 AI 数学能力的基准,OpenAI 还利用该基准展示了其即将推出的旗舰 AI 产品 o3。

Epoch AI 的一名承包商在论坛 LessWrong 上使用昵称 “Meemi” 表示,许多参与 FrontierMath 项目的贡献者在 OpenAI 的资助被公开之前并不知情。他提到:“关于这一点的沟通缺乏透明度。在我看来,Epoch AI 应该提前披露 OpenAI 的资金来源,承包商也应当清楚他们的工作有可能被用于能力评估时,才能决定是否参与基准的开发。”

社交媒体上,一些用户对此表示担忧,认为这种保密行为可能损害 FrontierMath 作为客观基准的声誉。除了资助 FrontierMath 外,OpenAI 还对该基准中的许多问题和解决方案拥有可见性,而 Epoch AI 在12月20日之前并未对此进行披露。

斯坦福大学的数学博士生 Carina Hong 在社交平台上指出,OpenAI 因与 Epoch AI 的合作而获得了 FrontierMath 的优先访问权,这让一些贡献者感到不满。“六位对 FrontierMath 基准有显著贡献的数学家确认,他们并不知道 OpenAI 会独占这个基准,其他人将无法接触到。”Hong 表示,大多数贡献者在得知这一点后表示,如果早知道这一安排,他们可能不会参与该项目。

Epoch AI 副主任 Tamay Besiroglu 对此表示,虽然组织的透明度有所不足,但他认为 FrontierMath 的完整性并未受到影响。他承认,Epoch AI 在沟通上存在失误,未能提前告知贡献者 OpenAI 的参与情况。

Besiroglu 表示,虽然 OpenAI 有权访问 FrontierMath,但双方有 “口头协议”,OpenAI 不会使用该基准的问题集来训练其 AI。Epoch AI 还保留了一份 “单独的保留集”,以确保 FrontierMath 基准结果的独立验证。

Epoch AI 首席数学家 Ellot Glazer 在 Reddit 上提到,Epoch AI 尚未独立验证 OpenAI 的 FrontierMath o3结果。他认为 OpenAI 的得分是可信的,但在独立评估完成之前,无法对其进行确认。


划重点:

💡 Epoch AI 因未及时披露 OpenAI 资金而受到批评,导致一些贡献者感到不满。  

🔍 FrontierMath 基准的完整性受到质疑,OpenAI 在项目中获得了优先访问权。  

🔒 Epoch AI 承认沟通失误,但与 OpenAI 的合作仍保持透明的评估机制。