微软RPT：强化学习的风又吹到了预训练！

发布日期: 2025-06-14

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

微软研究院、北大、清华联合提出了一种名为“强化预训练（ReinforcementPre-Training,RPT）”的新范式，用于LLMs预训练。RPT将Next-Token预测任务重新定义为一个通过强化学习（RL）训练的推理任务，模型通过正确预测下一个token来获得可验证的奖励。
标准Next-Token预测直接估计预训练语料库中的下一个token，而Next-Token推理则在做出预测之前对多个token进行推理。
强化预训练的示意图。给定一个缺少延续的上下文，大型语言模型（LLM）执行基于策略的展开，生成G条不同的思考轨迹。每条轨迹都包含一个中间推理步骤以及对Next-Token的最终预测。如果预测与真实token匹配，则赋予正奖励；否则，奖励为零。该奖励信号用于更新LLM，鼓励那些能够导致准确延续的轨迹。
训练过程：使用OmniMATH数据集进行预训练，该数据集包含4428个竞赛级别的数学问题和解决方案。通过过滤低熵token（即容易预测的token），专注于训练需要更多计算工作来预测的token。
强化学习设置：使用Deepseek-R1-Distill-Qwen-14B作为基础模型，采用GRPO算法进行训练。训练过程中，模型生成多个响应（思考轨迹），并通过奖励信号更新模型参数。

可扩展性分析：研究了RPT在不同训练计算量下的性能变化，发现随着训练计算量的增加，Next-Token预测的准确性一致提高。
强化微调：在Skywork-OR1数据集上对RPT模型进行进一步的强化学习微调，结果表明RPT模型在微调后性能提升更为显著。
零样本性能：在MMLU-Pro和SuperGPQA两个基准测试中，RPT-14B在零样本设置下表现优于R1-Distill-Qwen-14B和R1-Distill-Qwen-32B。
RPT可以直接利用大量未标注的文本数据进行训练。这是因为它的奖励信号来自于预测的正确性，而不需要外部的标注或特定领域的奖励函数。这意味着RPT可以扩展到几乎无限的网络文本语料库，从而充分利用海量数据来提升模型的性能。
https ://arxiv. org/pdf/2506. 08007ReinforcementPre-Training
推荐阅读
•动手设计AIAgents：（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•单智能体（Agent）：企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1. 2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。