同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升

正文

资源拓展

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2025-07-02 15:35

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。

中国科学院自动化研究所深度强化学习团队联合美团，提出一种单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning)。该方法通过基于熵的动态加权机制，将两种训练范式结合。

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

图注：SRFT方法示意图，展示了对探索试错（rollout）数据和演示（demonstration）数据的协同学习，以及平衡监督和强化信号的熵感知策略更新。

在大语言模型（LLM）的推理能力提升上，监督微调（SFT）和强化学习（RL，有时也称作强化微调，RFT）是两条核心技术路线。但它们各自都存在瓶颈：

SFT擅长模仿专家解题思路，类似“背书”，能快速为模型打下基础，但缺点是容易陷入死记硬背，缺乏在新问题上灵活应用和寻找最优解的能力；

RFT/RL通过不断试错来探索解题方法，类似“刷题”，能够发现更优解法，但其探索过程效率低下，容易面临模式崩溃风险。

因此，目前研究者通常采用两阶段顺序方法SFT→RFT/RL：先用SFT学习高质量数据集，再用RFT/RL进一步优化对齐LLM策略（即先“背完书”再“去刷题”）。

然而，这种串行方式不仅影响学习效率，还常常导致模型在“刷题”时忘了“书本”上的知识，引发知识遗忘等问题，如何让两者在同一阶段协同作用，做到“边背边练”，成为提升 LLM 推理能力的关键之一。

结果显示，SRFT方法能够同时从高质量演示数据（demonstrations）与LLM自身的探索试错(rollouts)中学习，在5项数学推理任务中实现59.1%的平均准确率，较zero-RL基线提升9.0% ；在三项分布外任务上取得62.5%的平均准确率，较zero-RL基线提升10.9% ，展现了卓越的泛化能力。

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

△SRFT与其它算法的性能对比

分析：面向 LLM 推理的 SFT 和 RL

研究团队首先对SFT与RL在LLM微调中的作用进行了分析，并深入探究了二者结合的有效路径。

SFT和RL对LLM的作用：大锤vs.手术刀

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

图注：LLM 微调前后分布可视化， (a) SFT 与 RL 前后分布改变示例 (b) 在5个数据集上统计了分布变化的频率。

通过对微调前后模型对token概率的改变进行可视化，仔细分析实验结果，可以得到以下发现：

SFT导致大部分 token （50%以上）的概率分布改变（粗粒度）
RL/RFT只对特定 token （少于2%）进行有针对性的调整，同时保留了大部分内容（细粒度）

从理论上看，SFT的目标是最大化专家数据的似然，将专家演示的条件概率分布 “注入” 模型，类似人们通过“背书”学习，其梯度公式揭示了其内在机制：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

该公式表明，对单个样本训练，SFT主要通过提高目标标记的概率，同时降低词汇表中所有其他标记的概率，这会锐化模型的分布，从而产生更具确定性的输出。通过这种“一刀切”的方式，SFT强制模型去拟合专家数据，但也可能因此抑制模型的探索性和多样性。

训练动态可视化如下图所示，数字表示训练后的准确率。SRFT 通过在结合两种方法实现直接优化，到达与SFT→RL接近的区域，且无需两阶段转换。

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

为了进一步探究训练动态，研究人员还从模型训练轨迹的角度对几种微调方法进行了可视化。论文提出了一种新颖的可视化方法。其核心思想是：

将不同模型看作高维空间中的点，通过计算它们在生成相同回复（response）时输出token概率分布的“距离”，来描绘其在训练过程中的“移动轨迹”。

具体而言，论文引入了三个参考模型——基础模型（Qwen-2.5-Math-7B）、DeepSeek-R1和QwQ-32B作为坐标系，通过模型与参考模型回复的 teacher forcing 距离来间接测量模型在不同微调步骤中的训练动态（如果两个模型对所有提示（prompt）中的所有回复token分配相似的概率，则认为它们是接近的）。

结果表明，所有微调范式在提升性能的同时，均会偏离基础模型空间，此外：

SFT使模型在概率空间中移动的距离最远，印证了其“大锤”般的全局性影响。
SFT→RL的两阶段路径揭示了一个问题：SFT可能将模型推得“过远”，后续的RL反而需要将其“拉回”到离基础模型更近的区域才能达到最优，这暗示了串行方法的低效性。
SRFT的单阶段路径则显得更为直接和高效，它在学习专家知识的同时，没有过度偏离初始模型，从而实现了更精准的优化。

结合两种范式：从两阶段到单阶段

熵是信息论中的一个重要概念，它衡量的是随机变量的不确定性。在 LLM 的推理过程中，熵可以反映模型输出分布的不确定性，近期的诸多工作也展示了熵在 LLM 训练中的重要性。

高熵表示模型的输出分布较为均匀，不确定性较大；低熵则表示模型的输出分布较为集中，不确定性较小。

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

图注：两种结合方式的性能、熵变化曲线

在该论文中，研究人员主要从SFT和RL结合的角度对熵展开了分析，如上图所示。在RL后进行SFT，会使模型的熵短暂增加，这表明模型在学习新的知识和模式时，其输出分布变得更加不确定。

随着训练的进行，熵逐渐降低，模型逐渐收敛，输出分布变得更加确定，最终提升模型性能。

相比之下，RL在训练过程中则会使熵显著降低，模型的输出分布变得更加集中。这是因为RL通过奖励函数引导模型学习特定的策略，使模型更倾向于生成能够获得高奖励的输出。然而，这种低熵的状态也可能导致模型的可塑性降低，限制了后续训练的效果。

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

图注：不同结合方式的训练效率

论文接着比较了纯RL、不同SFT步数的顺序SFT→RL方法，以及单阶段SFT+RL方法。结果表明，与顺序SFT→RL方法相比，单阶段SFT+RL方法实现了更优的训练效率。单阶段SFT+RL方法通过统一优化有效利用演示数据，提速2.28倍。这种方法能够直接针对目标进行策略优化，同时保留从数据集中通过监督学习进行知识蒸馏的优势。

方法：监督强化微调（SRFT）

本论文提出SRFT (Supervised Reinforcement Fine-Tuning)，将监督微调(SFT)和强化学习微调(RFT/RL)单阶段结合。以下是对方法的描述：

核心思想

SRFT的核心在于其单阶段学习机制：通过SFT实现粗粒度行为策略逼近，通过RL实现细粒度策略精化，借助于单阶段训练，将微调同时应用于演示数据和自生成的试错数据。

从演示数据(demonstration)中学习

双重策略设计

对于包含演示数据的数据集（例如，由DeepSeek-R1生成的推理响应），SRFT采用双重策略来有效利用这一宝贵资源：

1. 监督微调组件

通过SFT执行行为策略的粗粒度逼近：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2. 异策略强化学习组件

采用类似LUFFY的异策略强化学习（off-policy RL）方法，将演示数据作为高质量的异策略强化学习数据，进行细粒度学习：

直接将LLM的同策略强化学习（on-policy RL) 探索试错的组（group）与演示数据结合，创建增广训练组：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

整个增广训练组的优势估计为：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

分布不匹配缓解策略

为解决演示数据的行为策略与当前训练策略之间的分布不匹配，引入两种关键缓解策略：

1. 熵感知自适应权重机制

对于演示数据的SFT，引入基于当前策略熵的自适应权重机制：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

当模型熵很高（非常不确定）时，SFT权重很小。这能防止模型在“迷茫”时被专家数据过度“带偏”，避免了分布不匹配带来的负面影响。最终的演示SFT损失为：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2. 重要性采样

对于异策略强化学习训练，引入类似GRPO和PPO的重要性采样项修正分布差异。最终的异策略强化学习训练损失为：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

其中重要性采样比率为：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

为简化实现，论文设置并省略截断操作。

从自探索（self-exploration）中学习

RL目标函数分解

在具有二元奖励的RL范式下，其目标函数可以自然分解为两个不同组件：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

其中：

正样本目标：类似于监督微调，最大化正确响应的似然
负样本目标：实施似然最小化，减少分配给错误响应的概率

熵自适应权重

为保持训练稳定性并防止熵的快速降低，对正样本目标引入熵自适应权重机制：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

完整的自探索目标为：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

单阶段集成方法

统一损失函数

通过同时利用演示数据和自探索试错数据，SRFT有效平衡了SFT的粗粒度调整与RL的细粒度优化。总损失函数结合了所有四个组件：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

关键机制总结

1. 熵感知权重：两种熵感知权重机制确保训练稳定性

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

2. 单阶段优化：直接朝着目标函数优化，同时保持来自数据集的监督学习的知识蒸馏优势

这种方法使SRFT能够同时从演示数据和自探索试错数据中受益，同时通过两种熵感知权重机制保持稳定的训练动态。

结果：性能显著优于zero-RL方法，与其它结合方法相比提升明显

关键发现

主要实验结果（包含5个数学推理基准和3个非数学基准）：

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

仔细分析SRFT与SFT、RL以及SFT与RL结合相关方法的性能比较，可以得到以下发现：

显著性能提升：

SRFT在五个挑战性竞赛级推理基准上取得了59.1%的平均准确率

比最佳zero-RL基线方法提升了+9.0个百分点

比SFT方法提升了+4.8个百分点

比SFT+RL组合方法提升了+3.4个百分点

泛化能力优秀：

平均分数: SRFT取得62.5分，比最佳基线提升+4.7个百分点

跨域表现: 在所有三个分布外基准上都表现出色

训练动态分析：更稳、更长、更高效

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

△训练动态曲线（奖励、回复长度、熵）

训练奖励动态

SRFT相比纯RL实现了更快的性能改进，提速2.33倍

两种方法都显示出训练奖励的上升趋势

SRFT的收敛更加稳定

响应长度变化

RL：倾向于生成更简洁的响应

SRFT：显示出响应的逐步延长，表明发展出更全面详细的推理过程

推理质量：响应长度的增加表明模型发展出更深入的推理过程

训练熵动态

RL: 表现出快速的熵下降

SRFT: 维持更稳定的熵，表明策略能够在训练期间继续探索

训练稳定性: 熵感知权重机制的有效性得到验证

总结

该工作分析探究了SFT与RL在LLM推理任务中各自的特点与结合方式，提出的SRFT方法通过基于熵的权重机制实现了SFT与RL的单阶段结合。SRFT成功地在单阶段训练流程中实现了知识学习（SFT）与自主探索（RFT/RL）的动态平衡 ，在多项任务上取得了推理性能和泛化性能双提升。

更多研究细节，可参考原论文。

项目网页: https://anonymous.4open.science/w/SRFT2025

论文链接: https://arxiv.org/abs/2506.19767

模型链接: https://huggingface.co/Yuqian-Fu/SRFT

文章来自于“量子位”，作者“SRFT团队”。

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。

项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载

安卓下载

微信群

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

站点导航

APP 下载

分析：面向 LLM 推理的 SFT 和 RL

SFT和RL对LLM的作用：大锤vs.手术刀

结合两种范式：从两阶段到单阶段

方法：监督强化微调（SRFT）

核心思想

从演示数据(demonstration)中学习

双重策略设计

分布不匹配缓解策略

从自探索（self-exploration）中学习

RL目标函数分解

熵自适应权重

单阶段集成方法

统一损失函数

关键机制总结

结果：性能显著优于zero-RL方法，与其它结合方法相比提升明显

关键发现

训练动态分析：更稳、更长、更高效

总结