DeepSeek-R1通过强化学习（RL）激励推理

论文DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning提出了一个以“强化学习（RL）直接激励推理”为中心的新范式：在没有人工标注推理轨迹的前提下，仅用“可验证”的最终答案作为奖励信号，就能让大语言模型（LLM）在训练中自发涌现出更长、更系统的思考链、反思与自检等高级推理行为。作者先在 DeepSeek-V3 Base 上用 GRPO 算法训练出纯 RL 的 DeepSeek-R1-Zero，再通过“拒绝采样 + 有限 SFT + 第二阶段 RL”的多阶段流程得到更均衡的 DeepSeek-R1。模型在数学、编程竞赛与 STEM 等可验证任务上优于常规“人类示例监督”路线，并可将强推理能力蒸馏到更小模型以降低能耗与使用门槛。

论文作者应主要来自DeepSeek团队，梁文锋是论文通讯作者。

一、研究背景与问题界定
以 CoT 提示和人类示例监督为代表的传统做法，在复杂推理上虽有效但依赖大量人力与“人类思维范式”，容易引入偏见与天花板效应。论文关注的问题是：在不提供人类推理轨迹的条件下，是否可以只靠“结果是否正确”的奖励，让模型自己学会更强的思考策略？作者给出的答案是肯定的——可验证任务、可靠判题器/编译器与规模化 RL 是关键。

二、总体技术路线与训练范式

R1-Zero（纯 RL 起点）：以 DeepSeek-V3 Base 为策略模型，采用 GRPO 进行大规模 RL。训练时仅强制输出结构满足 <think>…</think><answer>…</answer>，奖励只看“答案正确性 + 输出格式”，不约束“如何思考”，且不做预先 SFT，避免把探索束缚在“人类示例”的轨道上。
R1（多阶段整合）：在 R1-Zero 的基础上，先少量收集“冷启动”的对话式长思考数据，再做第一阶段 RL；随后引入“拒绝采样 + SFT”（混合推理与通用语料）增强可读性与通用任务；最后进行第二阶段 RL，将“可验证推理奖励 + 有害性/有用性偏好奖励 + 语言一致性奖励”整合，得到在推理与通用对齐上更均衡的 DeepSeek-R1。

三、GRPO 算法要点与相对 PPO 的差异
GRPO 的核心是“组相对优势”：对每个问题一次采样一组 G 个输出，用该组内的相对奖励分布直接归一化得到优势，从而无需单独训练价值网络；再配合对参考策略的 KL 正则与裁剪，简化了 PPO 的训练栈并提升可扩展性。直观上，它是在“同题多解”的小型“锦标赛”里，把更优解的相对优势直接变成更新信号。

四、奖励设计与“可验证”闭环

规则式奖励：
• 正确性奖励：数学题用标准答案比对（按指定格式输出），代码题用编译/测试用例判分，逻辑题用规则验证。
• 格式奖励：强制 <think>/<answer> 结构，便于分离思考过程与结论。
两者同权相加，推理域不引入“神经奖励模型”，以规避大规模 RL 中的“奖励黑客”。
模型式奖励：
• 有用性偏好模型：用成对偏好数据训练，关注最终总结的实用价值与相关性。
• 安全性模型：用带“安全/不安全”标签的数据进行点式训练，识别整体响应风险。
通用数据上使用偏好奖励；推理数据仍坚持规则式奖励。
语言一致性奖励：按目标语词占比计分，缓解中英夹杂以提升可读性（会略有推理性能代价）。

五、规模化训练与关键超参（工程细节）
R1-Zero 采用学习率 3e-6、KL 系数约 0.001、每题采样 16 个输出；前 8.2k 步最大长度 32,768 令牌，之后升至 65,536，性能与输出长度在该步出现跃迁；批大小约 512/步；参考模型定期刷新；单轮 rollout 生成数千到上万输出再分小批更新。第一阶段与第二阶段 RL在此基础上微调了温度、裁剪系数、语言一致性权重与任务混合比例，且在后期才引入通用指令数据与偏好奖励，以降低“奖励黑客”风险。

六、涌现行为与“aha moment”
训练过程中，模型自动延长“思考时长”，平均输出长度随步数稳步上升，并逐步形成“自我校验、反思重估、尝试备选路径”等策略。作者观察到与“反思/校验”相关词频显著上升，并展示了“等等，我需要重想一下”的典型片段，标志推理模式发生阶段性跃迁。

七、实验结果与阶段性对比

训练轨迹与可验证表现：R1-Zero 在 AIME 等竞赛题上从较低起点快速提升到接近或超过人类平均水平；在编程竞赛与理化生等可验证题型上亦显著进步。
多阶段演进：
• 推理向指标（如 MMLU-Pro、MATH-500、Codeforces、SWE-bench Verified、AIME 等）持续上升，R1-Zero → 第一阶段 RL → 增加 SFT → 最终 R1 呈现“推理更强、对齐更好”的折中最优。
• 通用向指标（如 Arena-Hard、AlpacaEval、IF-Eval 等）在引入混合 SFT 与偏好奖励后显著提升。
知识蒸馏：将长 CoT 能力迁移至更小模型，显著优于同体量常规指令微调版本，降低推理能耗与算力门槛。

八、与主流路线的系统对比
• 相对“人类示例监督 + CoT”：本研究把“如何思考”的自由交还给模型，让“可验证结果”驱动策略自发现，避免人类范式设限。
• 相对 RLHF：R1 在推理域尽量避免“神经偏好奖励”，改以可验规则，减少奖励黑客；偏好模型仅用于通用任务对齐。
• 相对测试时扩展（多数投票/MCTS 等）：R1 能按题目难度自适应分配“思考令牌”，复杂题“多想”、简单题“少想”，实现“训练时塑造 + 测试时自适应”。

九、能力边界与风险清单
• 工具与结构化输出：尚未在 RL 环境中系统纳入检索/工具/计算器交互；是后续可补强方向。
• 令牌效率：虽能自调深思，但仍可能“过度思考”。
• 语言混用：非主语言场景可能出现跨语种混杂。
• 提示敏感：few-shot 可能降分，建议零样本并明确输出格式。
• 工程类长周期评测：评测耗时长导致 RL 迭代慢，提升不如可验证推理域显著。
• 奖励黑客：当奖励依赖模型打分且难以可靠评测时，策略可能“找捷径”；论文通过限制偏好奖励的使用阶段与步数缓解。

十、实践启示（如何用、如何训）
• 把任务转化为“可验证”的闭环：标准答案、判题器、测试集、约束格式，让“正确性”直接变成可优化的 RL 信号。
• 提示策略：零样本 + 明确输出结构最稳；需要可读性时加入轻量“语言一致性约束”。
• 工程落地：对代码/数理题，先建高可信度编译/判题流水线，再用 GRPO 做组采样与相对优势更新；评测昂贵领域可用“拒绝采样 + 异步评测/代理指标”以降低 RL 循环延迟。

十一、对未来研究的建议
• “工具增强推理”的端到端 RL：将检索器、计算器、编译器、外部环境等纳入奖惩闭环。
• 更细粒度的密集奖励：从“只看终点正确”走向“过程可检”（步骤判定、单测覆盖、草稿自检信号）。
• 可解释性与行为跟踪：量化“反思词/自检行为”，研究“aha 时刻”的触发条件与迁移性。
• 令牌预算调度：围绕长 CoT 的冗余，研究“停止准则/自适应深思策略”的 RL 约束。

十二、关键术语速览
• GRPO：基于组相对优势的策略优化，无需价值网络，配合 KL 正则与裁剪实现稳定更新。
• pass@1 / cons@K：单样本一次命中率 / 自一致性（对同题采样 K 次投票）。
• 冷启动长 CoT：少量人工筛选的对话式长推理样本，用于把“可读、对齐”的思维风格引入策略，再交给 RL 放大。

十三、批判性讨论与开放问题
这项工作的价值在于把“高质量推理”的核心驱动从“模仿人类思维范式”转向“让可验证任务与规模化 RL 驱动自演化”。其边界也清晰：当任务难以定义稳定、抗黑客的奖励（如开放写作、价值取向问题），纯 RL 仍步履维艰；当评测周期过长，RL 的“信息时延”会拖慢改进。下一步的竞争焦点，可能在“如何把更多现实问题转化为可验证子目标链”，以及“如何把工具与结构化输出纳入端到端 RL 闭环”。

相关文章：

发表评论 取消回复

发表评论取消回复