RL预训练 | 真的会颠覆预训练范式吗??

发布日期: 2025-06-12

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

我是小冬瓜AIGC
X-R1开源框架|现高校LLM对齐研究
课程帮助学员拿下OpenAI,Meta等
小红书/知乎：小冬瓜AIGC
结论：RPT现阶段仍不会颠覆预训练范式
ReinforcementPre-Training
概述：强化学习预训练（ReinforcementPre-Training，RPT）将通用语料中的token当成是verified目标做Reasoning-RL训练。
数据：受限于算力不能对每个token进行RPT训练，用R1-Qwen-Distill筛选出challengetoken（熵最大的nexttoken)来做RPT；
训练：RPT训练是以R1-Distill-Qwen的模型作为起点，并非从random/pretrain模型作为起点进行预训练。RPT训练范式是基于SFT模型的基础上做Reasoning-RL训练，RPT训练数据有通用性，突破了原先在Math类任务需要客观准确的label的要求。
RPT现阶段与我们熟知的预训练表征学习的\“蛋糕主体\“是有区别的。
Next-TokenPrediction：根据上下文预测下一个词元

给定语料里的输入序列，对于任意位置，可以根据前缀token序列来预测下一个token。在下一个词元推理任务中，模型需要生成CoT序列，最终预测结果，完整生成为,
根据GRPO算法，给定，可以进行让生成个采样路径，得到多个回答，每个回答包含。
对于Reasoing-RL任务来说，需要规则奖励，那么可以按照匹配规则比较预测结果和之间是否一致：
其中，奖励为则表明匹配成功。这里的表明，所预测的是否在next–token中存在。例如，给定序列“大语言模型”，输入为\“大语言\“，如果为“型”，当时奖励为1。
最终优化的目标即为最大化期望：
原公式是对语料中的每一个Token都要算RPTloss。计算量为：
设语料包含1Ttoken，采样组为64，长度为1024，那么采样1Tx64条轨迹，每条轨迹有1024个token（online-inference数据量）
相较标准的的nexttokenprediction，训练增加了64*1024倍数据量。
问题：是否语料所有的token都要做RPT？

受限于算力，无法对每个token都做RPT，另外有些next-token的预测是容易的，那么我们要筛选出适合做RPT的token
论文选择用Deepseek-R1-Distill-Qwen-1. 5B作为proxymodel，对一段语料进行forward计算，筛选出熵最大的16个词元当成是challengetoken。
问题：RPT是否从random参数开始预训练？

由于RPT需要模型具备基础的推理能力，以Deepseek-R1-Distill-Qwen-14B作为RPT训练的起点。所以RPT不是从random参数开始做预训练的。
相较R1-Zero是在“数学推理任务”进行RL训练，RPT应该是“通用语言推理任务”的R1-Zero训练，RPT突破了需要RL-Reasoning训练需要监督的finalanswer的条件。
再仔细思考，RPT不是建立在一个严格的Pretrain模型上RL训练的，准确来说Deepseek-R1-Distill-Qwen-14B是一个SFT模型，而RPT的范式仍为“SFT->RL”
RPT并不是我们所常见的从random参数开始预训练的表征学习范式，RPT本质是通用的Reasoning-RL训练方法。
RPT其关键在于构造出“通用的RL训练任务”，有算力scalingup的空间；
长期来看构建有效的“通用的预训练学习任务“比“设计模型/训练方法”更加重要。

ZejunCao

https://zejuncao.github.io/2025/06/12/1000000041-2247487638-1/