AIbase
Product LibraryTool Navigation

24-Game-Reasoning

Public

超简单复现Deepseek-R1-Zero和Deepseek-R1,以「24点游戏」为例。通过zero-RL、SFT以及SFT+RL,以激发LLM的自主验证反思能力。

Creat2025-02-26T15:46:13
Update2025-03-24T20:54:55
14
Stars
0
Stars Increase

Related projects