仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大型语言模型(LLM)的后训练是将其应用于实际任务的关键阶段,主要包括监督微调(SFT)和基于人类反馈的偏好学习(如DPO)。传统观点认为SFT仅是DPO的\“热身步骤\“,两者缺乏理论关联。本文突破性地证明:SFT与DPO本质都在学习隐式奖励函数,且共享相同的策略-奖励最优子空间。这一发现不仅统一了两类方法,还揭示了传统SFT的缺陷——KL散度项在优化中退化为常数,导致模型更新缺乏约束。通过理论推导与实验验证,论文提出简单有效的改进方案,显著提升模型性能(相对增益达25%),为LLM对齐提供了新视角。
论文:AUnifiedViewofSFTandDPOConnectionsviaImplicitReward
链接:https ://arxiv. org/pdf/2507. 00018v1
后训练的核心目标是最小化专家数据分布()与策略模型分布()的差异。传统模仿学习使用以下目标:
其中是f-散度(如KL散度),约束策略偏离预训练模型的程度。
定理1将分布匹配转化为双层优化问题:
核心洞察:
内层学习特定奖励函数下的最优策略
外层优化奖励函数以匹配专家分布
SFT是当取总变差(TotalVariation)时的特例,此时目标退化为MLE损失:
在退化的SFT目标中,KL项是零阶常数,无法提供梯度约束:
\“KL项缺失导致DPO训练的起点远离基础模型,影响最终性能。\“这解释了为何SFT模型容易过拟合专家数据,丧失预训练知识。
理论依据:KL项缺失使SFT更新步长过大。作者提出:
将SFT学习率从降至(Llama3)或(Mistral)
通过减小单步更新幅度,间接模拟KL约束效应
为保留KL项的约束力,作者从f散度导出新目标函数:
Pearsonχ²散度:引入平方概率差项约束KL
SquaredHellinger散度:通过概率差系数调制梯度两者避免对数/指数运算,保障数值稳定性。
训练目标对比:
散度类型
训练目标(简化形式)
总变差(传统)
Pearsonχ²
SquaredHellinger
在SFT过程中,语言模型的Logits()对应隐式奖励的Q值:
符号解释:
:满足公式(4)的隐式奖励
:折扣因子
:仅依赖状态的偏移项(不影响动作排名)
价值主导假设:
\“状态间的差异远小于的差异,故Logits可代理状态价值。\“这意味着可直接用Logits的log-sum-exp估计,无需蒙特卡洛采样。
在Llama3-8B和Mistral-7B上的实验结果:
SFT阶段:小学习率仅带来轻微改进(+0. 5–1. 0%LC-Win)
DPO后:相对性能提升20–25%,绝对胜率增加5–6%
\“SimPO在Mistral上从15. 6%→21. 5%,验证KL约束的重要性。\“
Pearson-SFT+DPO:绝对胜率最高提升3. 6%(Llama3)
关键发现:SFT阶段的强表现未必导向更好的DPO结果
\“保留KL项的替代目标虽削弱SFT性能,但显著提升DPO结果。\“
在MATH-500推理步骤上计算Kendall等级相关系数(KLCC)
不同模型/数据切片的估值排名相关性接近1
\“Zephyr与Llama3-instruct的估值排名高度一致,间接验证定理2。\“
SFT快速将初始随机奖励收敛至合理区间(150步内)
早期退出实验:150步后DPO性能趋于稳定,后续训练仅微调
隐式奖励的发现引发思考:
\“LLM是否可视为具有预设环境认知的实体?\“这为AI意识讨论提供了新视角。
尝试联合优化SFT与DPO目标(公式36):
结果:交替训练导致性能震荡,SFT阶段削弱DPO增益。根本矛盾:SFT假设数据为最优轨迹,而DPO依赖偏好冲突。
理论统一:证明SFT与DPO均通过隐式奖励优化策略,打破二者割裂认知。
方法创新:
小学习率SFT显著提升DPO性能(+25%相对增益)
基于f散度的新目标保留KL约束,进一步改善结果
深度洞见:
Logits在SFT中充当隐式Q函数,扩展了DPO的结论
SFT的核心作用是校正初始奖励的随机性
未来方向:探索更稳健的SFT-DPO多目标优化框架,验证隐式奖励的可解释性。
这篇文章的核心价值:为LLM对齐提供首个SFT-DPO统一理论框架,同时提出简单高效的实践方案,兼具学术突破性与工程落地价值。
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦