不仅蒸馏数据，也蒸馏Reward

发布日期: 2025-06-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文题目：DistillNotOnlyDatabutAlsoRewards:CanSmallerLanguageModelsSurpassLargerOnes?
论文地址：https ://arxiv. org/pdf/2502. 19557
本文提出了一个新颖的知识蒸馏框架，该框架不仅从教师模型中提取输出内容（数据），还通过自监督机制生成伪奖励信号，从而提取教师模型对生成内容质量的潜在评估信息（奖励信号）。
设计了一种自监督的奖励学习方法，通过利用教师模型和学生模型响应的内在结构，生成伪奖励，无需显式的外部评估。
将监督微调（SFT）与基于伪奖励的强化学习（RL）相结合，先利用SFT对学生模型进行预热训练，使其学习到教师模型的高质量响应。
本文主要研究方法是提出了一种新的语言模型蒸馏框架，通过数据蒸馏和奖励蒸馏两个阶段，利用教师模型的输出内容和自监督生成的伪奖励信号训练学生模型。首先，在数据蒸馏阶段，教师模型在不同温度下生成响应，经多数投票确定伪最终答案，构建数据集对学生模型进行监督微调预热。接着，在奖励蒸馏阶段，训练奖励模型比较教师与学生模型响应质量生成伪奖励，再通过强化学习优化学生模型，从而提升其性能，使其在某些情况下超越教师模型。
本图通过对比传统知识蒸馏方法（图a）与本文提出的方法（图b），阐述了知识蒸馏的两种不同策略。图a显示传统方法主要通过监督微调（SFT）直接将教师模型的数据（输出内容）提取到学生模型中，学生模型仅从教师模型的输出内容中学习。而图b展示本文的方法，不仅通过SFT提取教师模型的数据，还通过训练奖励模型（RM）并应用强化学习（RL），从教师模型中提取数据（输出内容）和奖励（质量评估），使学生模型在学习过程中逐步超越教师模型性能。
本图展示了本文提出的方法的整体框架，包括数据蒸馏和奖励蒸馏两个阶段。教师模型首先根据给定的问题生成高置信度的答案集合，并通过多数投票进行自我评估，生成伪最终答案。学生模型在生成响应后，通过比较教师模型和学生模型的响应质量，训练奖励模型来区分不同质量的响应。使用训练好的奖励模型，通过强化学习（RL）进一步优化学生模型。在优化过程中，设计了一种自我监督的奖励机制，综合考虑答案的存在性和可提取性、奖励模型评分以及与伪最终答案的一致性等因素来构建最终的奖励函数，从而进一步提升学生模型的性能，使其最终能够超越教师模型。
本表展示了不同教师模型和学生模型在GSM8K、GSM-Plus和MMLU-Pro数据集上，采用不同方法时的性能表现。具体包括直接使用教师模型（Teacher）、仅使用学生模型的上下文学习（ICL）、监督微调（SFT）、仅使用奖励蒸馏（Oursw/oD）、仅使用数据蒸馏（Oursw/oR）以及本文完整方法（Ours）时的准确率。这些结果验证了本文方法在提升学生模型性能方面的有效性，使其能够在某些情况下超越教师模型。总体而言，本表的数据证明了同时进行数据蒸馏和奖励蒸馏的方法在提高学生模型性能方面的优势。
–END–
最后对知识蒸馏创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入知识蒸馏交流群！
关注“学姐带你玩AI”公众号，回复“数据蒸馏”
领取数据蒸馏前沿论文合集+开源代码
往期推荐:
喜提CVPR2025满分！数据蒸馏取得新突破！速度up20倍，GPU占用仅2G
【NeurIPS2024】跨域知识蒸馏登顶会啦！
CVPR2025满分论文，极简的数据蒸馏！
知识蒸馏实战：使用CoatNet蒸馏ResNet
爆锤蒸馏！田渊栋等提出CoCoMix，用“连续概念”增强大模型训练，效率提升21. 5%！
ACCEPT
据说点赞的都Accept了！