论文DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning提出了一个以“强化学习(RL)直接激励推理”为中心的新范式:在没有人工标注推理轨迹的前提下,仅用“可验证”的最终答案作为奖励信号,就能让大语言模型(LLM)在训练中自发涌现出更长、更系统的思考链、反思与自检等高级推理行为。作者先在 DeepSeek-V3 Base 上用 GRPO 算法训练出纯 RL 的 DeepSeek-R1-Zero,再通过“拒绝采样 + 有限 SFT + 第二阶段 RL”的多阶段流程得到更均衡的 DeepSeek-R1。模型在数学、编程竞赛与 STEM 等可验证任务上优于常规“人类示例监督”路线,并可将强推理能力蒸馏到更小模型以降低能耗与使用门槛。
论文作者应主要来自DeepSeek团队,梁文锋是论文通讯作者。
一、研究背景与问题界定
以 CoT 提示和人类示例监督为代表的传统做法,在复杂推理上虽有效但依赖大量人力与“人类思维范式”,容易引入偏见与天花板效应。论文关注的问题是:在不提供人类推理轨迹的条件下,是否可以只靠“结果是否正确”的奖励,让模型自己学会更强的思考策略?作者给出的答案是肯定的——可验证任务、可靠判题器/编译器与规模化 RL 是关键。
二、总体技术路线与训练范式
- R1-Zero(纯 RL 起点):以 DeepSeek-V3 Base 为策略模型,采用 GRPO 进行大规模 RL。训练时仅强制输出结构满足 <think>…</think><answer>…</answer>,奖励只看“答案正确性 + 输出格式”,不约束“如何思考”,且不做预先 SFT,避免把探索束缚在“人类示例”的轨道上。
- R1(多阶段整合):在 R1-Zero 的基础上,先少量收集“冷启动”的对话式长思考数据,再做第一阶段 RL;随后引入“拒绝采样 + SFT”(混合推理与通用语料)增强可读性与通用任务;最后进行第二阶段 RL,将“可验证推理奖励 + 有害性/有用性偏好奖励 + 语言一致性奖励”整合,得到在推理与通用对齐上更均衡的 DeepSeek-R1。
三、GRPO 算法要点与相对 PPO 的差异
GRPO 的核心是“组相对优势”:对每个问题一次采样一组 G 个输出,用该组内的相对奖励分布直接归一化得到优势,从而无需单独训练价值网络;再配合对参考策略的 KL 正则与裁剪,简化了 PPO 的训练栈并提升可扩展性。直观上,它是在“同题多解”的小型“锦标赛”里,把更优解的相对优势直接变成更新信号。
四、奖励设计与“可验证”闭环
- 规则式奖励:
• 正确性奖励:数学题用标准答案比对(按指定格式输出),代码题用编译/测试用例判分,逻辑题用规则验证。
• 格式奖励:强制 <think>/<answer> 结构,便于分离思考过程与结论。
两者同权相加,推理域不引入“神经奖励模型”,以规避大规模 RL 中的“奖励黑客”。 - 模型式奖励:
• 有用性偏好模型:用成对偏好数据训练,关注最终总结的实用价值与相关性。
• 安全性模型:用带“安全/不安全”标签的数据进行点式训练,识别整体响应风险。
通用数据上使用偏好奖励;推理数据仍坚持规则式奖励。 - 语言一致性奖励:按目标语词占比计分,缓解中英夹杂以提升可读性(会略有推理性能代价)。
五、规模化训练与关键超参(工程细节)
R1-Zero 采用学习率 3e-6、KL 系数约 0.001、每题采样 16 个输出;前 8.2k 步最大长度 32,768 令牌,之后升至 65,536,性能与输出长度在该步出现跃迁;批大小约 512/步;参考模型定期刷新;单轮 rollout 生成数千到上万输出再分小批更新。第一阶段与第二阶段 RL在此基础上微调了温度、裁剪系数、语言一致性权重与任务混合比例,且在后期才引入通用指令数据与偏好奖励,以降低“奖励黑客”风险。
六、涌现行为与“aha moment”
训练过程中,模型自动延长“思考时长”,平均输出长度随步数稳步上升,并逐步形成“自我校验、反思重估、尝试备选路径”等策略。作者观察到与“反思/校验”相关词频显著上升,并展示了“等等,我需要重想一下”的典型片段,标志推理模式发生阶段性跃迁。
七、实验结果与阶段性对比
- 训练轨迹与可验证表现:R1-Zero 在 AIME 等竞赛题上从较低起点快速提升到接近或超过人类平均水平;在编程竞赛与理化生等可验证题型上亦显著进步。
- 多阶段演进:
• 推理向指标(如 MMLU-Pro、MATH-500、Codeforces、SWE-bench Verified、AIME 等)持续上升,R1-Zero → 第一阶段 RL → 增加 SFT → 最终 R1 呈现“推理更强、对齐更好”的折中最优。
• 通用向指标(如 Arena-Hard、AlpacaEval、IF-Eval 等)在引入混合 SFT 与偏好奖励后显著提升。 - 知识蒸馏:将长 CoT 能力迁移至更小模型,显著优于同体量常规指令微调版本,降低推理能耗与算力门槛。
八、与主流路线的系统对比
• 相对“人类示例监督 + CoT”:本研究把“如何思考”的自由交还给模型,让“可验证结果”驱动策略自发现,避免人类范式设限。
• 相对 RLHF:R1 在推理域尽量避免“神经偏好奖励”,改以可验规则,减少奖励黑客;偏好模型仅用于通用任务对齐。
• 相对测试时扩展(多数投票/MCTS 等):R1 能按题目难度自适应分配“思考令牌”,复杂题“多想”、简单题“少想”,实现“训练时塑造 + 测试时自适应”。
九、能力边界与风险清单
• 工具与结构化输出:尚未在 RL 环境中系统纳入检索/工具/计算器交互;是后续可补强方向。
• 令牌效率:虽能自调深思,但仍可能“过度思考”。
• 语言混用:非主语言场景可能出现跨语种混杂。
• 提示敏感:few-shot 可能降分,建议零样本并明确输出格式。
• 工程类长周期评测:评测耗时长导致 RL 迭代慢,提升不如可验证推理域显著。
• 奖励黑客:当奖励依赖模型打分且难以可靠评测时,策略可能“找捷径”;论文通过限制偏好奖励的使用阶段与步数缓解。
十、实践启示(如何用、如何训)
• 把任务转化为“可验证”的闭环:标准答案、判题器、测试集、约束格式,让“正确性”直接变成可优化的 RL 信号。
• 提示策略:零样本 + 明确输出结构最稳;需要可读性时加入轻量“语言一致性约束”。
• 工程落地:对代码/数理题,先建高可信度编译/判题流水线,再用 GRPO 做组采样与相对优势更新;评测昂贵领域可用“拒绝采样 + 异步评测/代理指标”以降低 RL 循环延迟。
十一、对未来研究的建议
• “工具增强推理”的端到端 RL:将检索器、计算器、编译器、外部环境等纳入奖惩闭环。
• 更细粒度的密集奖励:从“只看终点正确”走向“过程可检”(步骤判定、单测覆盖、草稿自检信号)。
• 可解释性与行为跟踪:量化“反思词/自检行为”,研究“aha 时刻”的触发条件与迁移性。
• 令牌预算调度:围绕长 CoT 的冗余,研究“停止准则/自适应深思策略”的 RL 约束。
十二、关键术语速览
• GRPO:基于组相对优势的策略优化,无需价值网络,配合 KL 正则与裁剪实现稳定更新。
• pass@1 / cons@K:单样本一次命中率 / 自一致性(对同题采样 K 次投票)。
• 冷启动长 CoT:少量人工筛选的对话式长推理样本,用于把“可读、对齐”的思维风格引入策略,再交给 RL 放大。
十三、批判性讨论与开放问题
这项工作的价值在于把“高质量推理”的核心驱动从“模仿人类思维范式”转向“让可验证任务与规模化 RL 驱动自演化”。其边界也清晰:当任务难以定义稳定、抗黑客的奖励(如开放写作、价值取向问题),纯 RL 仍步履维艰;当评测周期过长,RL 的“信息时延”会拖慢改进。下一步的竞争焦点,可能在“如何把更多现实问题转化为可验证子目标链”,以及“如何把工具与结构化输出纳入端到端 RL 闭环”。