2024-12-15 10:23:35.AIbase.
阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力
2024-11-29 09:47:51.AIbase.
被虐哭!Epoch AI推出数学新基准FrontierMath 顶级AI模型解题数不超2%
2024-11-18 07:58:19.AIbase.
Kimi推出数学推理模型k0-math:数学能力对标OpenAI o1系列
2024-10-14 14:51:30.AIbase.
苹果研究团队发布新基准GSM-Symbolic:揭示大语言模型的数学推理短板!
2024-10-12 14:59:01.AIbase.
苹果AI研究团队发现大模型推理短板 一句话就把OpenAI o1干废了
2024-07-19 16:36:43.AIbase.