「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

AI技术研报 2025-05-06 10:53

+8323 阅读

本文深入梳理了围绕DeepSeek-R1展开的多项复现研究，系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。

最近，推理语言模型（RLMs）已经成为主流。

最新发布的、性能最强的LLM大都是推理模型。

尤其是DeepSeek-R1的发布，更是引发了广泛的社会影响，同时也点燃了研究社区对推理的热情。

但是，DeepSeek-R1的一些实现细节还没有完全开源，比如DeepSeek-R1-Zero以及蒸馏的小模型等。

因此，许多复制DeepSeek-R1的研究应运而生（图1），试图通过相似的训练流程和完全开源的训练数据来重现DeepSeek-R1的优异性能。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

这些研究探索了监督微调（SFT）和基于可验证奖励的强化学习（RLVR）的可行策略，重点关注数据准备和方法设计，产出了不少宝贵经验。

为此，本文总结了近期的这些复现研究，以启发未来的探索。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

论文地址：https://arxiv.org/abs/2505.00551

本文的结构大致对应DeepSeek-R1的训练流程，介绍当前在SFT、RLVR以及其他增强推理能力技术方面的复制工作：

监督微调提升语言模型推理能力：研究团队全面梳理了通过监督微调（Supervised Fine-tuning, SFT）增强语言模型推理能力的相关研究。
用可验证奖励强化学习训练推理语言模型：研究团队介绍了近期通过可验证奖励强化学习（Reinforcement Learning from Verifiable Rewards, RLVR）训练RLMs的研究，详细阐述了训练数据、学习算法和奖励系统设计。
推理语言模型的更多发展方向：研究团队注意到，尽管DeepSeek-R1推动了RLMs的训练，但仍有许多监督策略尚未探索。他们提出了RLMs的更多发展方向，包括奖励建模和偏好优化，并分析了当前RLMs的优缺点，例如强大的分布外泛化能力和偶尔的过度思考。

通过监督微调提升RLMs

推理数据集大多数从收集多样化领域的问题开始，例如数学、科学、编程和谜题，数据来源包括现有的基准测试或网络爬取。

在收集原始数据后，通常会进行多轮过滤以提升数据质量，包括：

去重：通过嵌入相似性或n-gram方法去除重复数据；
拒绝采样：剔除低质量数据；
真值验证：确保数据准确性。

为了保证数据的覆盖面和丰富性，许多数据集在选择过程中明确强调难度和多样性，通常使用启发式方法或模型通过率来优先选择较难的问题。

此外，大多数数据集依赖经过验证的思维链（COTs）或解决方案来确保正确性和质量。

验证方法因领域而异，例如：

数学问题通常通过Math Verify验证；
编程问题通过代码执行或单元测试验证；
通用任务则由大语言模型（LLM）作为评判者进行验证。

这种结合领域验证和选择性保留的方法，使数据管理人员能够提炼出高质量的推理轨迹，从而更好地支持监督微调。

虽然这些数据集覆盖多个领域，但如表1所示，大多数数据集主要集中在数学和编程任务上。涉及更广泛推理任务（如科学、逻辑谜题和开放性问题）的覆盖率仍然相对有限。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

值得注意的例外包括DeepSeek-R1和AM，它们在数据收集和蒸馏过程中纳入了更广泛的领域，旨在培养更通用的推理能力。

长度分布

图2展示了数据集的token长度分布情况。

尽管这些数据集的长思维链（CoTs）都来源于同一个教师模型——DeepSeek-R1，但它们的分布却存在明显差异。

例如，AM和Synthetic-1的数据集倾向于较短的序列，而Light-R1和Open-R1的分布范围更广，尾部更长，这表明它们包含更多复杂问题，这些问题通常会引发更长的思维链。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

图3中展示了常用数学推理数据集之间的交叉引用结构。该图清晰地呈现了数据集之间的依赖网络和共享数据，帮助研究人员更好地解读结果，避免重复的训练或评估设置。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

图中箭头从源数据集指向包含其部分数据的目标数据集。以淡紫色高亮显示的数据集包含从DeepSeek-R1提取的思维链（Chain-of-Thought）轨迹

性能比较

在实践中，SFT阶段对于让基础模型从更强的模型中学习高质量推理轨迹至关重要。

表2展示了在常见数学推理基准（如AIME24/25和MATH500）上的SFT结果比较，突出不同数据集选择和初始模型检查点的影响。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

虽然许多方法强调通过增加训练样本数量来提升性能，但LIMO和S1k-1.1表明，通过精心挑选的小规模数据集也能取得优异成果。

训练细节

对于复杂推理等长上下文任务，通常会调整模型配置中的RoPE缩放因子（θ）和最大上下文长度，以支持扩展的上下文能力。

例如，Open-R1将θ设为300,000，上下文长度设为32,768个token。常用的学习率包括1.0 × 10⁻⁵和5.0 × 10⁻⁵，批大小通常为96或128。

此外，通常采用打包（packing）技术来提高训练效率。

RLVR在推理语言模型中的应用

RL数据集

DeepSeek-R1-Zero通过独立的RLVR流程在推理和知识任务中取得了优异表现。其RLVR过程中使用的高质量精选数据集是成功的关键。

因此，多项复制研究探索了如何利用开源数据和强大模型高效创建训练数据集的策略。

这些数据集涵盖R训练中可验证的多种任务，主要聚焦于数学和编程问题解决的数据集。表3提供了这些数据集的统计概览。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

RL组件

随着DeepSeek-R1-Zero和DeepSeek-R1的发布，DeepSeek展示了通过强化学习（RL）微调LLM以应对复杂推理任务的成功经验。

基于精心挑选的训练数据，相关研究主要集中在配置RL框架的关键部分，以实现卓越性能：采用高效的RL算法（如GRPO）以及设计奖励机制。

表4提供了这些研究方法的比较。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

表4总结了多个竞争性开源 DeepSeek-R1 复制研究在强化学习验证任务（RLVR）中使用的算法和奖励设计方案。为了便于比较，DeepSeek-R1 系列模型的相关信息被单独列出

在基于结果-奖励的RL方法中，PPO和GRPO是最常用的微调大语言模型的算法。

有趣的是，近期的一些复制研究对这些方法进行了各种改进，针对特定目标优化了训练效果。

研究团队回顾了几种代表性的基于RL的大语言模型微调算法，包括 REINFORCE、PPO、GRPO及其变体。此外，他们还梳理了这些方法的改进及其背后的动机，旨在清晰概述基于结果-奖励的RL训练方法的技术进步。

奖励机制

奖励是RL训练的核心，因为它定义了优化的目标，引导模型的行为。

一个设计良好的奖励机制能提供清晰、一致的信号，帮助模型学习到有效的策略。

然而，奖励模型常常容易被「奖励欺骗」（reward hacking，指模型通过钻空子获得高分而非真正解决问题），因此近期研究更倾向于使用基于规则的结果奖励系统。

这些系统通常分为三类：

准确性奖励：准确性奖励评估回答是否正确，通常给正确回答打 1 分，错误回答打 0 分或 -1 分。

格式奖励：格式奖励鼓励回答遵循预定义的结构或推理格式，通常给正确格式打 1 分，偏离格式则打 0 分或 -1 分。

长度奖励：长度奖励影响模型回答的详尽程度。一些方法奖励生成特定长度的回答，而另一些方法则鼓励在保证准确性的前提下尽量简洁。

采样策略

直观来说，在训练过程中合理选择样本对RL的有效性至关重要。

一方面，课程学习方法通过逐步增加任务难度，提高了复杂样本的利用率。另一方面，合理使用拒绝采样技术可以提升样本效率并稳定训练。

RLVR在其他任务上的应用

通过RLVR，DeepSeek-R1的复杂推理能力显著增强，在复杂语境理解和问题解决等推理密集型任务中取得成功。

RLVR使大模型能够在无需人工指导的情况下，通过可验证的答案学习和执行任务，激发其复杂推理能力。

受此启发，多项研究探索了RLVR在不同任务中的复杂推理范式。

逻辑推理：TinyZero和Mini-R1尝试在倒计时游戏中重现DeepSeek R1的「灵光一现」时刻，使用简单的基于规则的奖励系统。

面向应用的实际任务：推理语言模型需要通过思考、规划和反思来学习处理现实世界的应用型任务。

超越监督的探索：通过强化学习过程，研究发现大模型展现出了令人惊喜且意想不到的能力。

这些结果凸显了复杂推理语言模型通过RL训练策略，超越监督数据资源甚至人类能力的潜力。

结论

在本文中，研究团队全面概述了受DeepSeek-R1启发而进行的复现工作，特别重点关注了其背后的监督微调和强化学习方法。

他们探讨了开源项目如何整理指令微调数据集，如何实现基于结果奖励的强化学习策略，以及如何设计旨在增强模型推理能力的奖励系统。

除了总结当前各项工作的趋势之外，还对该领域未来充满希望的方向提出了自己的看法。这些方向包括将推理技能扩展到数学和编程任务之外，提升模型的安全性和可解释性，以及改进奖励机制以促进更复杂的推理行为。

团队希望本次综述不仅能捕捉到近期进展，还能为正在进行的研究提供坚实的基础，并标志着向实现通用人工智能迈出了更进一步。

参考资料：

https://arxiv.org/abs/2505.00551

文章来自于“新智元”，作者“犀牛”。

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

通过监督微调提升RLMs

长度分布

性能比较

训练细节

RLVR在推理语言模型中的应用

RL数据集

RL组件

奖励机制

采样策略

RLVR在其他任务上的应用

更多发展方向

结论