2025-03-14 10:07:07.AIbase.
360智脳チーム、Deepseek強化学習効果の再現に成功、オープンソースモデルLight-R1-14B-DSを発表
2025-01-16 10:42:26.AIbase.
アリババQwenチーム、新型プロセス報酬モデルを発表、数学的推論が進化
2024-12-15 10:23:35.AIbase.
アリババ、AIベンチマーク「PROCESSBENCH」を発表、数学的推論における誤り認識能力を評価
2024-11-29 09:47:51.AIbase.
衝撃!Epoch AIが数学の新基準FrontierMathを発表、トップAIモデルの正解率は2%以下
2024-10-14 14:51:30.AIbase.
アップル研究チーム、新たなベンチマークGSM-Symbolicを発表:大規模言語モデルの数学的推論能力の欠点を明らかに!
2024-10-12 14:59:01.AIbase.