FrontierMathは、複雑な数学問題を解く上でのAIの能力限界をテストすることを目的とした数学ベンチマークテストプラットフォームです。60名以上の数学者によって共同開発され、代数幾何学からツェルメロ・フレンケル集合論まで、現代数学の全範囲を網羅しています。FrontierMathの各問題は、専門の数学者が数時間かけて取り組むことを要求するものであり、GPT-4やGeminiなどの最先端のAIシステムでさえ、2%未満しか解くことができません。このプラットフォームは、真の評価環境を提供し、すべての問題は新規で未発表のものであり、既存のベンチマークテストで一般的に見られるデータ汚染の問題を解消しています。