RL预训练 | 真的会颠覆预训练范式吗??


RL预训练 | 真的会颠覆预训练范式吗??

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

我是小冬瓜AIGC
X-R1开源框架|现高校LLM对齐研究
课程帮助学员拿下OpenAI,Meta等
小红书/知乎:小冬瓜AIGC
结论:RPT现阶段仍不会颠覆预训练范式
ReinforcementPre-Training
概述:强化学习预训练(ReinforcementPre-Training,RPT)将通用语料中的token当成是verified目标做Reasoning-RL训练。
数据:受限于算力不能对每个token进行RPT训练,用R1-Qwen-Distill筛选出challengetoken(熵最大的nexttoken)来做RPT;
训练:RPT训练是以R1-Distill-Qwen的模型作为起点,并非从random/pretrain模型作为起点进行预训练。RPT训练范式是基于SFT模型的基础上做Reasoning-RL训练,RPT训练数据有通用性,突破了原先在Math类任务需要客观准确的label的要求。
RPT现阶段与我们熟知的预训练表征学习的\“蛋糕主体\“是有区别的。
Next-TokenPrediction:根据上下文预测下一个词元

给定语料里的输入序列,对于任意位置,可以根据前缀token序列来预测下一个token。在下一个词元推理任务中,模型需要生成CoT序列,最终预测结果,完整生成为,
根据GRPO算法,给定,可以进行让生成个采样路径,得到多个回答,每个回答包含。
对于Reasoing-RL任务来说,需要规则奖励,那么可以按照匹配规则比较预测结果和之间是否一致:
其中,奖励为则表明匹配成功。这里的表明,所预测的是否在next–token中存在。例如,给定序列“大语言模型”,输入为\“大语言\“,如果为“型”,当时奖励为1。
最终优化的目标即为最大化期望:
原公式是对语料中的每一个Token都要算RPTloss。计算量为:
设语料包含1Ttoken,采样组为64,长度为1024,那么采样1Tx64条轨迹,每条轨迹有1024个token(online-inference数据量)
相较标准的的nexttokenprediction,训练增加了64*1024倍数据量。
问题:是否语料所有的token都要做RPT?

受限于算力,无法对每个token都做RPT,另外有些next-token的预测是容易的,那么我们要筛选出适合做RPT的token
论文选择用Deepseek-R1-Distill-Qwen-1. 5B作为proxymodel,对一段语料进行forward计算,筛选出熵最大的16个词元当成是challengetoken。
问题:RPT是否从random参数开始预训练?

由于RPT需要模型具备基础的推理能力,以Deepseek-R1-Distill-Qwen-14B作为RPT训练的起点。所以RPT不是从random参数开始做预训练的。
相较R1-Zero是在“数学推理任务”进行RL训练,RPT应该是“通用语言推理任务”的R1-Zero训练,RPT突破了需要RL-Reasoning训练需要监督的finalanswer的条件。
再仔细思考,RPT不是建立在一个严格的Pretrain模型上RL训练的,准确来说Deepseek-R1-Distill-Qwen-14B是一个SFT模型,而RPT的范式仍为“SFT->RL”
RPT并不是我们所常见的从random参数开始预训练的表征学习范式,RPT本质是通用的Reasoning-RL训练方法。
RPT其关键在于构造出“通用的RL训练任务”,有算力scalingup的空间;
长期来看构建有效的“通用的预训练学习任务“比“设计模型/训练方法”更加重要。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录