DeepSeek-R1-Zero

DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

中文精选编程强化学习推理模型

DeepSeek-R1-Zero 是由 DeepSeek 团队开发的推理模型，专注于通过强化学习提升模型的推理能力。该模型在无需监督微调的情况下，展现出强大的推理行为，如自我验证、反思和生成长链推理。其主要优点包括高效推理能力、无需预训练即可使用，以及在数学、代码和推理任务上的卓越表现。该模型基于 DeepSeek-V3 架构开发，支持大规模推理任务，适用于研究和商业应用。

Best AI Websites & Tools

DeepSeek-R1-Zero

DeepSeek-R1-Zero 最新流量情况

DeepSeek-R1-Zero 访问量趋势

DeepSeek-R1-Zero 访问地理位置分布

DeepSeek-R1-Zero 流量来源

DeepSeek-R1-Zero 替代品

Steiner-32b-preview — Steiner 是一个基于合成数据训练的推理模型，旨在探索多种推理路径并自主验证。

DeepSeek-R1-Distill-Qwen-7B — DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型，专注于数学、代码和推理任务。

DeepSeek-R1-Zero — DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型，无需监督微调即可实现卓越推理能力。

DeepSeek-R1 — DeepSeek-R1 是一款高性能推理模型，支持多种语言和任务，适用于研究和商业应用。

混元T1 — 业界首个超大规模混合 Mamba 推理模型，强推理能力。

Reka Flash 3 — 一款 21B 通用推理模型，适合低延迟应用。

EXAONE Deep — LG AI 推出的开源推理 AI 模型，具备卓越的推理能力。

Light-R1-14B-DS — 一款开源的14B参数量的数学模型，通过强化学习训练，性能卓越。

Light-R1 — Light-R1 是一个专注于长链推理（Long COT）的开源项目，通过课程式 SFT、DPO 和 RL 提供从零开始的训练方法。

SWE-RL — 通过强化学习提升大型语言模型在开源软件演变中的推理能力

OpenThinker-32B — OpenThinker-32B 是一款强大的开源推理模型，专为提升开放数据推理能力而设计。

s1-32B — s1是一个基于Qwen2.5-32B-Instruct微调的推理模型，仅用1000个样本进行训练。

R1-V — 低成本强化视觉语言模型的泛化能力，仅需不到3美元。

Tülu 3 405B — Tülu 3 405B 是一个大规模开源语言模型，通过强化学习提升性能。

DeepSeek-R1-Distill-Qwen-1.5B — DeepSeek-R1-Distill-Qwen-1.5B 是一款高效推理的开源语言模型，适用于多种自然语言处理任务。

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型，适用于文本生成和推理任务。

DeepSeek-R1-Distill-Qwen-32B — DeepSeek-R1-Distill-Qwen-32B 是一款高性能的开源语言模型，适用于多种文本生成任务。

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

PRIME-RL — PRIME通过隐式奖励增强在线强化学习，提升语言模型的推理能力。

HuatuoGPT-o1 — 医疗领域复杂推理的大型语言模型

Unitree RL GYM — 用于强化学习的Unitree机器人平台

Tülu 3 — 开源的先进语言模型后训练框架

agibot_x1_train — 模块化仿人机器人，用于强化学习训练

MuKoe — 开源的MuZero实现，分布式AI框架

DeepSeek-V3-0324 — 一个强大的文本生成模型，适用于多种对话应用。

Fin-R1 — 通过强化学习驱动的金融推理大模型。

StarVector — 生成高质量 SVG 代码的基础模型。

Cube — Roblox Foundation Model for 3D Intelligence。

Second Me — 通过训练您的 AI 自我，增强个性，连接世界。