CONFIDENCE IS ALL YOU NEED


CONFIDENCE IS ALL YOU NEED

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

论文笔记,CONFIDENCEISALLYOUNEED:FEW-SHOTRLFINE-TUNINGOFLANGUAGEMODELS
核心思想是:与其找各种样本、模型来评判模型生成答案的好坏,不如直接利用AI对结果的概率(自信度)作为奖励信号。
奖励笃定的答案,鼓励模型把概率集中到最可靠的那个上,让输出分布变得尖锐。
无需奖励模型,无需人工标注。
在Qwen-7B上,每个问题生成16个结果,训练10~20个step。AIME2024提升13. 4%,Olympiadbench提升20. 8%,MinervaMath提升21. 7%
ReinforcementLearningviaSelf-Confidence-RLSC
最大化模型生成某个回答的概率与其自身概率的期望值。模型在给定输入的情况下,置信度目标定义为:
这个公式可以进一步展开为:
当模型的概率分布集中在极少数几个高可信度的答案上时,这个函数值会最大化。
为了优化这个目标函数,可以使用下边的损失函数。是一个“冻结”的模型副本,用于生成样本和提供一个概率权重,梯度不会通过它传播。
很直观,鼓励新模型为旧模型认为概率较高的回答分配更高的对数概率。
为了在分布过于尖锐或稀疏时稳定优化过程,引入了一个平滑项。即使alpha很小,比如0. 1,也能起到很好的效果。
训练过程很简单,下图已经很直观了。
经过RLSC微调的模型能够生成更简洁、更自信的回答。与普通的推理模型相比,RLSC训练后的模型能更早地给出答案,避免不必要的推理步骤。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录