无需标注和奖励模型!仅靠自信度RL,16个样本训练20步,效果飙升21%!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
整理:喵小六
“不用人工标注!不用奖励模型!16个样本训练20步,数学能力飙升21%!”
这篇论文提出了RLSC(基于自信心的强化学习),让大语言模型用自身答案的置信度作为奖励信号。就像学生通过检查自己的解题把握来提升成绩,完全摆脱对人类标注的依赖。
人工标注贵:RLHF需大量人工给答案打分
计算成本高:TTRL方法每题需生成64个答案投票
设计难度大:奖励函数像“黑魔法”调参困难
从外部走向本质,RLSC的核心思想令人拍案叫绝——用模型自信度这个模型内部信号代替多数投票的外部信号!只需优化自信度目标如下:
θθθ
通俗版解读:▸多数投票法→让64个AI“陪审团”选最佳答案▸RLSC→直接让AI提升自认为正确的概率
为了优化自信度目标,作者采用了如下的损失函数:
这个损失函数鼓励模型对旧模型认为自信的响应给出更高的log概率。关键是,它不需要外部奖励模型,也不需要标注数据,仅使用模型自身的信念分布作为反馈。
实际训练中,作者也推广至可微函数,在梯度计算中应用平滑技巧:
θ
加个小小α值(如0. 1),训练稳定性大幅提升!
仅用16样本/题,在8块A100上训练10-20步,Qwen2. 5-Math-7B模型全面进化:
在数学测试集上的结果:
MinervaMath:10. 7%→32. 4%(+21. 7%)
OlympiadBench:15. 1%→35. 9%(+20. 8%)
AIME24:13. 3%→26. 7%(+13. 4%)
RLSC调教后的模型竟主动省略推理步骤,发现正确答案之后,抛弃重复的推理思考,直接用简洁的思考过程给出正确答案。
案例1:分段函数求极值问题
原始模型:写满Python代码却算错
RLSC模型:三步推导直出答案✅
案例2:坐标距离计算
原始模型:错误输出10
RLSC模型:精准得出✅
低成本革命:中小企业也能微调大模型
自我进化:AI不依赖人类标注不断进化
安全隐忧:模型有时对错误答案过度自信
“高质量训练源自模型内部信号,而非外部标签”——这或是打开RL新范式的钥匙!
备注:昵称-学校/公司-方向/会议(eg. ACL),进入技术/投稿群
id:DLNLPer,记得备注呦