本文深入梳理了围绕DeepSeek-R1展开的多项复现研究,系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。
最近,推理语言模型(RLMs)已经成为主流。
最新发布的、性能最强的LLM大都是推理模型。
尤其是DeepSeek-R1的发布,更是引发了广泛的社会影响,同时也点燃了研究社区对推理的热情。
但是,DeepSeek-R1的一些实现细节还没有完全开源,比如DeepSeek-R1-Zero以及蒸馏的小模型等。
因此,许多复制DeepSeek-R1的研究应运而生(图1),试图通过相似的训练流程和完全开源的训练数据来重现DeepSeek-R1的优异性能。
这些研究探索了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)的可行策略,重点关注数据准备和方法设计,产出了不少宝贵经验。
为此,本文总结了近期的这些复现研究,以启发未来的探索。
论文地址:https://arxiv.org/abs/2505.00551
本文的结构大致对应DeepSeek-R1的训练流程,介绍当前在SFT、RLVR以及其他增强推理能力技术方面的复制工作:
推理数据集大多数从收集多样化领域的问题开始,例如数学、科学、编程和谜题,数据来源包括现有的基准测试或网络爬取。
在收集原始数据后,通常会进行多轮过滤以提升数据质量,包括:
为了保证数据的覆盖面和丰富性,许多数据集在选择过程中明确强调难度和多样性,通常使用启发式方法或模型通过率来优先选择较难的问题。
此外,大多数数据集依赖经过验证的思维链(COTs)或解决方案来确保正确性和质量。
验证方法因领域而异,例如:
这种结合领域验证和选择性保留的方法,使数据管理人员能够提炼出高质量的推理轨迹,从而更好地支持监督微调。
虽然这些数据集覆盖多个领域,但如表1所示,大多数数据集主要集中在数学和编程任务上。涉及更广泛推理任务(如科学、逻辑谜题和开放性问题)的覆盖率仍然相对有限。
值得注意的例外包括DeepSeek-R1和AM,它们在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力。
图2展示了数据集的token长度分布情况。
尽管这些数据集的长思维链(CoTs)都来源于同一个教师模型——DeepSeek-R1,但它们的分布却存在明显差异。
例如,AM和Synthetic-1的数据集倾向于较短的序列,而Light-R1和Open-R1的分布范围更广,尾部更长,这表明它们包含更多复杂问题,这些问题通常会引发更长的思维链。
图3中展示了常用数学推理数据集之间的交叉引用结构。该图清晰地呈现了数据集之间的依赖网络和共享数据,帮助研究人员更好地解读结果,避免重复的训练或评估设置。
图中箭头从源数据集指向包含其部分数据的目标数据集。以淡紫色高亮显示的数据集包含从DeepSeek-R1提取的思维链(Chain-of-Thought)轨迹
在实践中,SFT阶段对于让基础模型从更强的模型中学习高质量推理轨迹至关重要。
表2展示了在常见数学推理基准(如AIME24/25和MATH500)上的SFT结果比较,突出不同数据集选择和初始模型检查点的影响。
虽然许多方法强调通过增加训练样本数量来提升性能,但LIMO和S1k-1.1表明,通过精心挑选的小规模数据集也能取得优异成果。
对于复杂推理等长上下文任务,通常会调整模型配置中的RoPE缩放因子(θ)和最大上下文长度,以支持扩展的上下文能力。
例如,Open-R1将θ设为300,000,上下文长度设为32,768个token。常用的学习率包括1.0 × 10⁻⁵和5.0 × 10⁻⁵,批大小通常为96或128。
此外,通常采用打包(packing)技术来提高训练效率。
DeepSeek-R1-Zero通过独立的RLVR流程在推理和知识任务中取得了优异表现。其RLVR过程中使用的高质量精选数据集是成功的关键。
因此,多项复制研究探索了如何利用开源数据和强大模型高效创建训练数据集的策略。
这些数据集涵盖R训练中可验证的多种任务,主要聚焦于数学和编程问题解决的数据集。表3提供了这些数据集的统计概览。
随着DeepSeek-R1-Zero和DeepSeek-R1的发布,DeepSeek展示了通过强化学习(RL)微调LLM以应对复杂推理任务的成功经验。
基于精心挑选的训练数据,相关研究主要集中在配置RL框架的关键部分,以实现卓越性能:采用高效的RL算法(如GRPO)以及设计奖励机制。
表4提供了这些研究方法的比较。
表4总结了多个竞争性开源 DeepSeek-R1 复制研究在强化学习验证任务(RLVR)中使用的算法和奖励设计方案。为了便于比较,DeepSeek-R1 系列模型的相关信息被单独列出
在基于结果-奖励的RL方法中,PPO和GRPO是最常用的微调大语言模型的算法。
有趣的是,近期的一些复制研究对这些方法进行了各种改进,针对特定目标优化了训练效果。
研究团队回顾了几种代表性的基于RL的大语言模型微调算法,包括 REINFORCE、PPO、GRPO及其变体。此外,他们还梳理了这些方法的改进及其背后的动机,旨在清晰概述基于结果-奖励的RL训练方法的技术进步。
奖励是RL训练的核心,因为它定义了优化的目标,引导模型的行为。
一个设计良好的奖励机制能提供清晰、一致的信号,帮助模型学习到有效的策略。
然而,奖励模型常常容易被「奖励欺骗」(reward hacking,指模型通过钻空子获得高分而非真正解决问题),因此近期研究更倾向于使用基于规则的结果奖励系统。
这些系统通常分为三类:
直观来说,在训练过程中合理选择样本对RL的有效性至关重要。
一方面,课程学习方法通过逐步增加任务难度,提高了复杂样本的利用率。另一方面,合理使用拒绝采样技术可以提升样本效率并稳定训练。
通过RLVR,DeepSeek-R1的复杂推理能力显著增强,在复杂语境理解和问题解决等推理密集型任务中取得成功。
RLVR使大模型能够在无需人工指导的情况下,通过可验证的答案学习和执行任务,激发其复杂推理能力。
受此启发,多项研究探索了RLVR在不同任务中的复杂推理范式。
这些结果凸显了复杂推理语言模型通过RL训练策略,超越监督数据资源甚至人类能力的潜力。
虽然DeepSeek-R1的成功推进了RLMs的训练,但仍有许多监督策略有待探索。
推理增强的替代方法 :旨在解决传统 RLVR 在捕捉中间步骤和对齐人类期望方面的局限性。
主要方向包括:
泛化性:RLMs在学习推理能力时,能够很好地泛化到域外任务。
安全性 :推理语言模型面临一些安全挑战,包括过度思考(生成过长推理链,增加成本,可能忽略环境反馈) 和奖励欺骗(模型利用奖励函数的漏洞或模糊性获取高分)。
自我演进过程引入了失控和未对齐的风险。
多模态和多语言:
在本文中,研究团队全面概述了受DeepSeek-R1启发而进行的复现工作,特别重点关注了其背后的监督微调和强化学习方法。
他们探讨了开源项目如何整理指令微调数据集,如何实现基于结果奖励的强化学习策略,以及如何设计旨在增强模型推理能力的奖励系统。
除了总结当前各项工作的趋势之外,还对该领域未来充满希望的方向提出了自己的看法。这些方向包括将推理技能扩展到数学和编程任务之外,提升模型的安全性和可解释性,以及改进奖励机制以促进更复杂的推理行为。
团队希望本次综述不仅能捕捉到近期进展,还能为正在进行的研究提供坚实的基础,并标志着向实现通用人工智能迈出了更进一步。
参考资料:
https://arxiv.org/abs/2505.00551
文章来自于“新智元”,作者“犀牛”。
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner