仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
微软研究院、北大、清华联合提出了一种名为“强化预训练(ReinforcementPre-Training,RPT)”的新范式,用于LLMs预训练。RPT将Next-Token预测任务重新定义为一个通过强化学习(RL)训练的推理任务,模型通过正确预测下一个token来获得可验证的奖励。
标准Next-Token预测直接估计预训练语料库中的下一个token,而Next-Token推理则在做出预测之前对多个token进行推理。
强化预训练的示意图。给定一个缺少延续的上下文,大型语言模型(LLM)执行基于策略的展开,生成G条不同的思考轨迹。每条轨迹都包含一个中间推理步骤以及对Next-Token的最终预测。如果预测与真实token匹配,则赋予正奖励;否则,奖励为零。该奖励信号用于更新LLM,鼓励那些能够导致准确延续的轨迹。
训练过程:使用OmniMATH数据集进行预训练,该数据集包含4428个竞赛级别的数学问题和解决方案。通过过滤低熵token(即容易预测的token),专注于训练需要更多计算工作来预测的token。
强化学习设置:使用Deepseek-R1-Distill-Qwen-14B作为基础模型,采用GRPO算法进行训练。训练过程中,模型生成多个响应(思考轨迹),并通过奖励信号更新模型参数。
可扩展性分析:研究了RPT在不同训练计算量下的性能变化,发现随着训练计算量的增加,Next-Token预测的准确性一致提高。
强化微调:在Skywork-OR1数据集上对RPT模型进行进一步的强化学习微调,结果表明RPT模型在微调后性能提升更为显著。
零样本性能:在MMLU-Pro和SuperGPQA两个基准测试中,RPT-14B在零样本设置下表现优于R1-Distill-Qwen-14B和R1-Distill-Qwen-32B。
RPT可以直接利用大量未标注的文本数据进行训练。这是因为它的奖励信号来自于预测的正确性,而不需要外部的标注或特定领域的奖励函数。这意味着RPT可以扩展到几乎无限的网络文本语料库,从而充分利用海量数据来提升模型的性能。
https ://arxiv. org/pdf/2506. 08007ReinforcementPre-Training
推荐阅读
•动手设计AIAgents:(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•单智能体(Agent):企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1. 2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。