DeepSeek-R1技术报告概述

近年来,大规模语言模型(LLMs)的快速发展使其在推理、代码生成、科学计算等任务上展现出越来越强的能力,逐步缩小了与人工通用智能(AGI)之间的差距。然而,即使是最先进的 LLM,如 OpenAI 的 GPT-4o 和 Claude-3.5-Sonnet,仍然在一些高阶推理任务上存在一定局限性,特别是在长链推理(Chain-of-Thought, CoT)、数学推理、复杂编程问题解决等方面。

后训练(Post-training)已成为 LLM 发展过程中不可或缺的部分。近年来的研究表明,通过强化学习(Reinforcement Learning, RL)和监督微调(Supervised Fine-tuning, SFT),可以有效提升模型的推理能力,使其更好地对齐用户偏好,并在推理任务上取得更优表现。例如,OpenAI 的 o1 系列模型通过推理时动态扩展 CoT 长度,极大地提升了在数学、编程和科学推理方面的能力。然而,目前的研究仍然存在一些关键挑战:

  1. 推理能力的强化学习优化仍然是一个开放问题。尽管已有研究探索了基于过程奖励建模(Process-based Reward Modeling, PRM)、强化学习、搜索算法(如蒙特卡洛树搜索 Monte Carlo Tree Search, MCTS)等方法来提升推理能力,但尚未出现能够全面超越 OpenAI o1 系列的方案。
  2. 测试时推理能力的可扩展性仍然有限。在当前 LLM 研究中,如何让模型在推理过程中动态地优化自身思维链,并且有效扩展其推理深度,仍然是一个尚未完全解决的问题。
  3. 监督微调的依赖。大多数提升推理能力的工作都依赖于大量高质量监督数据进行微调,而获取这些数据往往成本高昂,并且可能限制模型的自适应推理能力。

在此背景下,本研究提出了 DeepSeek-R1,这是一个基于纯强化学习(RL)训练的推理优化 LLM,旨在探索如何在不依赖监督数据的情况下,通过强化学习激励模型自发学习推理能力。我们首先训练了DeepSeek-R1-Zero,这是一个完全由 RL 训练的模型,在无 SFT 预训练的情况下展现出强大的推理能力。然而,DeepSeek-R1-Zero 仍然存在可读性差、语言混杂等问题。因此,我们引入了冷启动数据(Cold Start Data),并采用多阶段强化学习训练策略,最终得到更稳定且推理能力更强的 DeepSeek-R1

此外,我们还探索了蒸馏(Distillation)技术,以便将 DeepSeek-R1 的推理能力迁移到更小的模型,如 Qwen 和 Llama,使得小型模型也能获得强大的推理能力。研究表明,蒸馏的小模型在多个基准测试中超过了其他同类开源模型,如 QwQ-32B-Preview,甚至在某些任务上与 OpenAI-o1-mini 相媲美。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Credit: Deepseek

本研究的主要贡献:

  1. 纯强化学习驱动的推理能力优化:DeepSeek-R1-Zero 是首个完全基于强化学习训练的 LLM,在推理任务上取得了显著提升,而无需 SFT 预训练。
  2. 多阶段强化学习训练框架:DeepSeek-R1 采用冷启动数据和多轮 RL 迭代,最终在推理任务上达到了 OpenAI-o1-1217 的水平。
  3. 高效的蒸馏方法:我们将 DeepSeek-R1 的推理能力蒸馏至小型模型(1.5B-70B 参数规模),并发现蒸馏的小模型能够显著超越常规 LLM 训练方法所能达到的推理水平。
一、DeepSeek-R1-Zero:基于强化学习的推理能力自我进化

DeepSeek-R1-Zero 是在 DeepSeek-V3-Base(基础模型)上直接应用强化学习(RL)训练出的推理模型,其核心特点是完全不依赖监督微调(SFT)。这意味着该模型的推理能力完全通过 RL 训练过程中自我进化产生,而不是依赖人类提供的高质量训练数据。

训练 DeepSeek-R1-Zero 的核心方法包括:

  1. 强化学习算法
    • 采用组相对策略优化(Group Relative Policy Optimization, GRPO),该方法不使用传统的价值网络,而是通过对比多个策略输出的得分来进行优化。这种方法减少了计算成本,使 RL 训练更加高效。
  2. 奖励建模(Reward Modeling)
    • 准确性奖励(Accuracy Rewards):在数学、编程等任务上,使用规则检测答案是否正确。例如,数学问题要求模型提供最终答案,并使用标准格式进行检查,而编程任务则利用编译器自动验证代码输出的正确性。
    • 格式奖励(Format Rewards):训练时要求模型将推理过程包裹在 <think>...</think> 标签中,并将最终答案包裹在 <answer>...</answer> 中,以确保输出结构的规范性。
  3. 自我进化过程
    • 训练过程中,DeepSeek-R1-Zero 在 AIME 2024 基准测试上的 pass@1 准确率从 15.6% 提升至 71.0%,并在多数投票(majority voting)模式下进一步提升至 86.7%,达到 OpenAI-o1-0912 的水平。
    • 训练过程中,自然涌现了反思(Reflection)自我验证(Self-verification) 等高级推理能力,表现出类似“顿悟”(Aha moment)的行为,即模型能够自发地重新审视自己的推理过程,并在必要时进行纠正。

尽管 DeepSeek-R1-Zero 展现出强大的推理能力,但它仍然存在一些明显的问题:

  • 可读性较差:推理过程往往混杂多种语言,影响理解。
  • 语言混杂:不同语言的混合输出导致文本难以阅读。
二、DeepSeek-R1:结合冷启动数据与强化学习的增强版模型

为了解决 DeepSeek-R1-Zero 的可读性问题,研究团队提出了 DeepSeek-R1,并引入了冷启动数据(Cold Start Data)和多阶段训练策略。DeepSeek-R1 的训练流程包括:

  1. 冷启动数据的引入
    • 采集包含详细 Chain-of-Thought(CoT) 的高质量数据,对 DeepSeek-V3-Base 进行微调,以提供一个更稳定的 RL 训练起点。
    • 通过人工筛选后处理确保数据可读性,避免语言混杂。
  2. 推理强化学习(Reasoning-Oriented RL)
    • 采用类似 DeepSeek-R1-Zero 的 RL 训练方法,并额外引入语言一致性奖励(防止不同语言混杂)。
  3. 拒绝采样与监督微调(Rejection Sampling & SFT)
    • 从 RL 生成的样本中筛选高质量推理数据,进行额外的 SFT 训练。
    • 额外加入非推理任务(如写作、问答等)的数据,以提升模型的通用能力。
  4. 最终强化学习优化(Final RL Fine-tuning)
    • 在全领域任务(推理、写作、编程等)上应用 RL,使模型更好地对齐人类偏好。

最终,DeepSeek-R1 在多个推理任务上达到了 OpenAI-o1-1217 的水平,并在部分任务上超越。

三、蒸馏小模型

研究团队还将 DeepSeek-R1 的推理能力蒸馏到更小的模型,如 Qwen 和 Llama。结果表明,蒸馏的小模型在多个基准测试中超过了其他同类开源模型,如 QwQ-32B-Preview。

四、实验与评估

研究团队在多个基准测试上评估了 DeepSeek-R1 及其蒸馏模型,主要包括数学推理、代码推理、知识问答以及通用文本生成任务。实验结果表明,DeepSeek-R1 在多个基准测试中达到了或超越了 OpenAI-o1-1217 的水平,而其蒸馏模型在小型参数规模下也展现出强劲的推理能力。

1.DeepSeek-R1 评估

DeepSeek-R1 在多个基准测试上的表现均优于 DeepSeek-R1-Zero,并在部分任务上超越 OpenAI-o1-1217:

  • 数学推理(AIME 2024, MATH-500)
    • 在 AIME 2024(美国数学邀请赛)上,DeepSeek-R1 的 pass@1 得分达到 79.8%,超越 OpenAI-o1-1217(79.2%)。
    • 在 MATH-500 数据集上,DeepSeek-R1 的 pass@1 得分高达 97.3%,略高于 OpenAI-o1-1217(96.4%)。
  • 代码推理(Codeforces, LiveCodeBench)
    • 在 Codeforces 编程竞赛任务上,DeepSeek-R1 取得 96.3% 的人类排名百分比(percentile),Elo 评分为 2029,与 OpenAI-o1-1217(Elo 2061)接近。
    • 在 LiveCodeBench 代码生成任务上,DeepSeek-R1 的 pass@1 得分为 65.9%,优于 OpenAI-o1-mini(53.8%)。
  • 知识问答(MMLU, GPQA Diamond)
    • 在 MMLU(多任务语言理解)测试上,DeepSeek-R1 取得 90.8% pass@1,略低于 OpenAI-o1-1217(91.8%),但显著优于 DeepSeek-V3(88.5%)。
    • 在 GPQA Diamond(高难度知识问答)测试中,DeepSeek-R1 取得 71.5% pass@1,超越 DeepSeek-V3(59.1%)。
  • 开放式文本生成
    • 在 AlpacaEval 2.0 测试中,DeepSeek-R1 以 87.6% 的胜率 超越 Claude-3.5 和 GPT-4o。
    • 在 Arena-Hard 测试中,DeepSeek-R1 以 92.3% 的胜率 超越 GPT-4o 和 OpenAI-o1-mini,展现出在通用任务上的强大能力。
2.蒸馏小模型评估

研究团队还将 DeepSeek-R1 的推理能力蒸馏到更小的模型,如 Qwen 和 Llama,发现:

  • DeepSeek-R1-Distill-Qwen-7B 超越 QwQ-32B-Preview
    • 在 AIME 2024 上,DeepSeek-R1-Distill-Qwen-7B 取得 55.5% pass@1,显著超过 QwQ-32B-Preview(50.0%)。
    • 在 MATH-500 上,DeepSeek-R1-Distill-Qwen-7B 取得 92.8% pass@1,超过 OpenAI-o1-mini(90.0%)。
  • DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-Llama-70B 超越 OpenAI-o1-mini
    • 在 GPQA Diamond、LiveCodeBench 以及 Codeforces 等推理任务上,DeepSeek-R1 的蒸馏模型均超越了 OpenAI-o1-mini,并与 OpenAI-o1-1217 接近。

实验结果表明,蒸馏后的小模型在推理任务上的表现大幅超越同等参数规模的 LLM,表明 DeepSeek-R1 的推理能力可以高效地迁移到小模型上。

五、讨论
1.蒸馏 vs 强化学习

研究团队发现,直接对小模型进行强化学习的效果不如蒸馏。实验表明:

  • 直接使用 RL 训练的 32B 模型(DeepSeek-R1-Zero-Qwen-32B),其推理能力仅与 QwQ-32B-Preview 持平
  • 而蒸馏后的 DeepSeek-R1-Distill-Qwen-32B 则显著优于前者,在多个推理任务上都超过了 QwQ-32B-Preview

这一发现表明:

  1. 蒸馏可以高效地将大型模型的推理能力迁移到小型模型上,并且比直接对小模型进行 RL 训练更高效。
  2. 小模型仍然受到计算资源的限制,即使应用大规模 RL 训练,效果仍不及从大型模型蒸馏而来的版本。
2.失败尝试

在研究过程中,研究团队还尝试了一些方法,但发现它们在大规模推理任务中的效果有限:

  1. 过程奖励模型(PRM)
    • 该方法试图通过奖励推理过程中的每个中间步骤来引导模型。然而,在通用推理任务上,精确定义每一步是否正确非常困难,并且容易导致奖励作弊(reward hacking),即模型通过某些捷径获取高分,而非真正优化推理能力。
  2. 蒙特卡洛树搜索(MCTS)
    • 受 AlphaGo 启发,研究团队尝试使用 MCTS 进行推理优化。然而,语言任务的搜索空间远大于围棋或国际象棋,导致 MCTS 难以扩展。此外,由于 MCTS 需要依赖精确的价值网络,而当前语言模型的价值估计仍然存在不稳定性,因此最终未能成功提升推理能力。
六、结论与未来方向

本研究证明了纯强化学习可以有效提升 LLM 的推理能力,并提出了一种结合冷启动数据和多阶段 RL 训练的方法,最终训练出性能接近 OpenAI-o1-1217 的 DeepSeek-R1。此外,研究团队还探索了蒸馏策略,并成功将 DeepSeek-R1 的推理能力迁移到小型模型,显著提升了小模型的推理水平。

未来,研究团队计划继续优化:

  1. 通用能力
    • 目前 DeepSeek-R1 在函数调用(function calling)、多轮对话(multi-turn dialogue)、复杂角色扮演(complex role-playing)等任务上的表现仍有提升空间。
  2. 语言一致性
    • 目前 DeepSeek-R1 主要针对中英文优化,在处理其他语言时可能会出现语言混杂的情况。未来计划扩展至多语言支持。
  3. 提示工程(Prompt Engineering)
    • 研究发现,DeepSeek-R1 对提示词(prompt)较为敏感,特别是少样本(few-shot)提示往往会降低推理表现。因此,未来将优化提示设计,使模型在不同提示下保持稳定表现。
  4. 软件工程任务
    • 由于代码评估时间较长,导致大规模 RL 训练在软件工程任务上的优化仍然有限。未来计划通过拒绝采样(Rejection Sampling)或异步评估来提升模型在软件工程任务上的表现。

DeepSeek-R1 及其蒸馏模型的开源预计将进一步推动 LLM 在推理任务上的发展,并为研究社区提供更强大的推理能力工具。


参考阅读:OpenAI o3-mini 系统说明(OpenAI o3-mini System Card)

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注