FrontierMath是一个数学基准测试平台,旨在测试人工智能在解决复杂数学问题上的能力极限。它由超过60位数学家共同创建,覆盖了从代数几何到Zermelo-Fraenkel集合论的现代数学全谱。FrontierMath的每个问题都要求专家数学家投入数小时的工作,即使是最先进的AI系统,如GPT-4和Gemini,也仅能解决不到2%的问题。这个平台提供了一个真正的评估环境,所有问题都是新的且未发表的,消除了现有基准测试中普遍存在的数据污染问题。