DeepSeek-R1技术报告概述

近年来，大规模语言模型（LLMs）的快速发展使其在推理、代码生成、科学计算等任务上展现出越来越强的能力，逐步缩小了与人工通用智能（AGI）之间的差距。然而，即使是最先进的 LLM，如 OpenAI 的 GPT-4o 和 Claude-3.5-Sonnet，仍然在一些高阶推理任务上存在一定局限性，特别是在长链推理（Chain-of-Thought, CoT）、数学推理、复杂编程问题解决等方面。

后训练（Post-training）已成为 LLM 发展过程中不可或缺的部分。近年来的研究表明，通过强化学习（Reinforcement Learning, RL）和监督微调（Supervised Fine-tuning, SFT），可以有效提升模型的推理能力，使其更好地对齐用户偏好，并在推理任务上取得更优表现。例如，OpenAI 的 o1 系列模型通过推理时动态扩展 CoT 长度，极大地提升了在数学、编程和科学推理方面的能力。然而，目前的研究仍然存在一些关键挑战：

推理能力的强化学习优化仍然是一个开放问题。尽管已有研究探索了基于过程奖励建模（Process-based Reward Modeling, PRM）、强化学习、搜索算法（如蒙特卡洛树搜索 Monte Carlo Tree Search, MCTS）等方法来提升推理能力，但尚未出现能够全面超越 OpenAI o1 系列的方案。
测试时推理能力的可扩展性仍然有限。在当前 LLM 研究中，如何让模型在推理过程中动态地优化自身思维链，并且有效扩展其推理深度，仍然是一个尚未完全解决的问题。
监督微调的依赖。大多数提升推理能力的工作都依赖于大量高质量监督数据进行微调，而获取这些数据往往成本高昂，并且可能限制模型的自适应推理能力。

在此背景下，本研究提出了 DeepSeek-R1，这是一个基于纯强化学习（RL）训练的推理优化 LLM，旨在探索如何在不依赖监督数据的情况下，通过强化学习激励模型自发学习推理能力。我们首先训练了DeepSeek-R1-Zero，这是一个完全由 RL 训练的模型，在无 SFT 预训练的情况下展现出强大的推理能力。然而，DeepSeek-R1-Zero 仍然存在可读性差、语言混杂等问题。因此，我们引入了冷启动数据（Cold Start Data），并采用多阶段强化学习训练策略，最终得到更稳定且推理能力更强的 DeepSeek-R1。

此外，我们还探索了蒸馏（Distillation）技术，以便将 DeepSeek-R1 的推理能力迁移到更小的模型，如 Qwen 和 Llama，使得小型模型也能获得强大的推理能力。研究表明，蒸馏的小模型在多个基准测试中超过了其他同类开源模型，如 QwQ-32B-Preview，甚至在某些任务上与 OpenAI-o1-mini 相媲美。

**DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning**
Credit: **Deepseek**

本研究的主要贡献：

纯强化学习驱动的推理能力优化：DeepSeek-R1-Zero 是首个完全基于强化学习训练的 LLM，在推理任务上取得了显著提升，而无需 SFT 预训练。
多阶段强化学习训练框架：DeepSeek-R1 采用冷启动数据和多轮 RL 迭代，最终在推理任务上达到了 OpenAI-o1-1217 的水平。
高效的蒸馏方法：我们将 DeepSeek-R1 的推理能力蒸馏至小型模型（1.5B-70B 参数规模），并发现蒸馏的小模型能够显著超越常规 LLM 训练方法所能达到的推理水平。

一、DeepSeek-R1-Zero：基于强化学习的推理能力自我进化

DeepSeek-R1-Zero 是在 DeepSeek-V3-Base（基础模型）上直接应用强化学习（RL）训练出的推理模型，其核心特点是完全不依赖监督微调（SFT）。这意味着该模型的推理能力完全通过 RL 训练过程中自我进化产生，而不是依赖人类提供的高质量训练数据。

训练 DeepSeek-R1-Zero 的核心方法包括：

强化学习算法：
- 采用组相对策略优化（Group Relative Policy Optimization, GRPO），该方法不使用传统的价值网络，而是通过对比多个策略输出的得分来进行优化。这种方法减少了计算成本，使 RL 训练更加高效。
奖励建模（Reward Modeling）：
- 准确性奖励（Accuracy Rewards）：在数学、编程等任务上，使用规则检测答案是否正确。例如，数学问题要求模型提供最终答案，并使用标准格式进行检查，而编程任务则利用编译器自动验证代码输出的正确性。
- 格式奖励（Format Rewards）：训练时要求模型将推理过程包裹在 <think>...</think> 标签中，并将最终答案包裹在 <answer>...</answer> 中，以确保输出结构的规范性。
自我进化过程：
- 训练过程中，DeepSeek-R1-Zero 在 AIME 2024 基准测试上的 pass@1 准确率从 15.6% 提升至 71.0%，并在多数投票（majority voting）模式下进一步提升至 86.7%，达到 OpenAI-o1-0912 的水平。
- 训练过程中，自然涌现了反思（Reflection）、自我验证（Self-verification） 等高级推理能力，表现出类似“顿悟”（Aha moment）的行为，即模型能够自发地重新审视自己的推理过程，并在必要时进行纠正。

尽管 DeepSeek-R1-Zero 展现出强大的推理能力，但它仍然存在一些明显的问题：

可读性较差：推理过程往往混杂多种语言，影响理解。
语言混杂：不同语言的混合输出导致文本难以阅读。

二、DeepSeek-R1：结合冷启动数据与强化学习的增强版模型

为了解决 DeepSeek-R1-Zero 的可读性问题，研究团队提出了 DeepSeek-R1，并引入了冷启动数据（Cold Start Data）和多阶段训练策略。DeepSeek-R1 的训练流程包括：

冷启动数据的引入：
- 采集包含详细 Chain-of-Thought（CoT） 的高质量数据，对 DeepSeek-V3-Base 进行微调，以提供一个更稳定的 RL 训练起点。
- 通过人工筛选与后处理确保数据可读性，避免语言混杂。
推理强化学习（Reasoning-Oriented RL）：
- 采用类似 DeepSeek-R1-Zero 的 RL 训练方法，并额外引入语言一致性奖励（防止不同语言混杂）。
拒绝采样与监督微调（Rejection Sampling & SFT）：
- 从 RL 生成的样本中筛选高质量推理数据，进行额外的 SFT 训练。
- 额外加入非推理任务（如写作、问答等）的数据，以提升模型的通用能力。
最终强化学习优化（Final RL Fine-tuning）：
- 在全领域任务（推理、写作、编程等）上应用 RL，使模型更好地对齐人类偏好。

最终，DeepSeek-R1 在多个推理任务上达到了 OpenAI-o1-1217 的水平，并在部分任务上超越。

三、蒸馏小模型

研究团队还将 DeepSeek-R1 的推理能力蒸馏到更小的模型，如 Qwen 和 Llama。结果表明，蒸馏的小模型在多个基准测试中超过了其他同类开源模型，如 QwQ-32B-Preview。

四、实验与评估

研究团队在多个基准测试上评估了 DeepSeek-R1 及其蒸馏模型，主要包括数学推理、代码推理、知识问答以及通用文本生成任务。实验结果表明，DeepSeek-R1 在多个基准测试中达到了或超越了 OpenAI-o1-1217 的水平，而其蒸馏模型在小型参数规模下也展现出强劲的推理能力。

1.DeepSeek-R1 评估

DeepSeek-R1 在多个基准测试上的表现均优于 DeepSeek-R1-Zero，并在部分任务上超越 OpenAI-o1-1217：

数学推理（AIME 2024, MATH-500）：
- 在 AIME 2024（美国数学邀请赛）上，DeepSeek-R1 的 pass@1 得分达到 79.8%，超越 OpenAI-o1-1217（79.2%）。
- 在 MATH-500 数据集上，DeepSeek-R1 的 pass@1 得分高达 97.3%，略高于 OpenAI-o1-1217（96.4%）。
代码推理（Codeforces, LiveCodeBench）：
- 在 Codeforces 编程竞赛任务上，DeepSeek-R1 取得 96.3% 的人类排名百分比（percentile），Elo 评分为 2029，与 OpenAI-o1-1217（Elo 2061）接近。
- 在 LiveCodeBench 代码生成任务上，DeepSeek-R1 的 pass@1 得分为 65.9%，优于 OpenAI-o1-mini（53.8%）。
知识问答（MMLU, GPQA Diamond）：
- 在 MMLU（多任务语言理解）测试上，DeepSeek-R1 取得 90.8% pass@1，略低于 OpenAI-o1-1217（91.8%），但显著优于 DeepSeek-V3（88.5%）。
- 在 GPQA Diamond（高难度知识问答）测试中，DeepSeek-R1 取得 71.5% pass@1，超越 DeepSeek-V3（59.1%）。
开放式文本生成：
- 在 AlpacaEval 2.0 测试中，DeepSeek-R1 以 87.6% 的胜率 超越 Claude-3.5 和 GPT-4o。
- 在 Arena-Hard 测试中，DeepSeek-R1 以 92.3% 的胜率 超越 GPT-4o 和 OpenAI-o1-mini，展现出在通用任务上的强大能力。

2.蒸馏小模型评估

研究团队还将 DeepSeek-R1 的推理能力蒸馏到更小的模型，如 Qwen 和 Llama，发现：

DeepSeek-R1-Distill-Qwen-7B 超越 QwQ-32B-Preview：
- 在 AIME 2024 上，DeepSeek-R1-Distill-Qwen-7B 取得 55.5% pass@1，显著超过 QwQ-32B-Preview（50.0%）。
- 在 MATH-500 上，DeepSeek-R1-Distill-Qwen-7B 取得 92.8% pass@1，超过 OpenAI-o1-mini（90.0%）。
DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Llama-70B 超越 OpenAI-o1-mini：
- 在 GPQA Diamond、LiveCodeBench 以及 Codeforces 等推理任务上，DeepSeek-R1 的蒸馏模型均超越了 OpenAI-o1-mini，并与 OpenAI-o1-1217 接近。

实验结果表明，蒸馏后的小模型在推理任务上的表现大幅超越同等参数规模的 LLM，表明 DeepSeek-R1 的推理能力可以高效地迁移到小模型上。

五、讨论

1.蒸馏 vs 强化学习

研究团队发现，直接对小模型进行强化学习的效果不如蒸馏。实验表明：

直接使用 RL 训练的 32B 模型（DeepSeek-R1-Zero-Qwen-32B），其推理能力仅与 QwQ-32B-Preview 持平。
而蒸馏后的 DeepSeek-R1-Distill-Qwen-32B 则显著优于前者，在多个推理任务上都超过了 QwQ-32B-Preview。

这一发现表明：

蒸馏可以高效地将大型模型的推理能力迁移到小型模型上，并且比直接对小模型进行 RL 训练更高效。
小模型仍然受到计算资源的限制，即使应用大规模 RL 训练，效果仍不及从大型模型蒸馏而来的版本。

2.失败尝试

在研究过程中，研究团队还尝试了一些方法，但发现它们在大规模推理任务中的效果有限：

过程奖励模型（PRM）：
- 该方法试图通过奖励推理过程中的每个中间步骤来引导模型。然而，在通用推理任务上，精确定义每一步是否正确非常困难，并且容易导致奖励作弊（reward hacking），即模型通过某些捷径获取高分，而非真正优化推理能力。
蒙特卡洛树搜索（MCTS）：
- 受 AlphaGo 启发，研究团队尝试使用 MCTS 进行推理优化。然而，语言任务的搜索空间远大于围棋或国际象棋，导致 MCTS 难以扩展。此外，由于 MCTS 需要依赖精确的价值网络，而当前语言模型的价值估计仍然存在不稳定性，因此最终未能成功提升推理能力。

六、结论与未来方向

本研究证明了纯强化学习可以有效提升 LLM 的推理能力，并提出了一种结合冷启动数据和多阶段 RL 训练的方法，最终训练出性能接近 OpenAI-o1-1217 的 DeepSeek-R1。此外，研究团队还探索了蒸馏策略，并成功将 DeepSeek-R1 的推理能力迁移到小型模型，显著提升了小模型的推理水平。

未来，研究团队计划继续优化：

通用能力：
- 目前 DeepSeek-R1 在函数调用（function calling）、多轮对话（multi-turn dialogue）、复杂角色扮演（complex role-playing）等任务上的表现仍有提升空间。
语言一致性：
- 目前 DeepSeek-R1 主要针对中英文优化，在处理其他语言时可能会出现语言混杂的情况。未来计划扩展至多语言支持。
提示工程（Prompt Engineering）：
- 研究发现，DeepSeek-R1 对提示词（prompt）较为敏感，特别是少样本（few-shot）提示往往会降低推理表现。因此，未来将优化提示设计，使模型在不同提示下保持稳定表现。
软件工程任务：
- 由于代码评估时间较长，导致大规模 RL 训练在软件工程任务上的优化仍然有限。未来计划通过拒绝采样（Rejection Sampling）或异步评估来提升模型在软件工程任务上的表现。

DeepSeek-R1 及其蒸馏模型的开源预计将进一步推动 LLM 在推理任务上的发展，并为研究社区提供更强大的推理能力工具。

参考阅读：OpenAI o3-mini 系统说明（OpenAI o3-mini System Card）