Synthetic-Data-Zero-RL：让 RL 左脚踩右脚

发布日期: 2025-04-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

作者：haotianhttps ://zhuanlan.zhihu.com/p/1893339057834153258
如果想左脚踩右脚，一个核心问题是：如何构造合适的prompt，且答案相对比较准确，这样，我们就能不断生成prompt并获取到gold-answer，且用该数据集做rl的训练，提升policy-model的性能。更进一步可以针对当前policy-model的能力评估结果，针对性合成相关的数据，提升policy的能力。（当然，也可以根据测试集针对性构造测试集的模拟题）。

RL能否左脚踩右脚，很大程度上取决于能否“因材施教”即根据当前policy的性能，自动化合成prompt&gold-answer，针对性提升模型缺失的技能、思维方法等等。

prompt-cot的合成过程如下：

PromptCoT已验证蒸馏数据的sft效果：在1.5b/7b-r1-distill上面，均有较大幅度的提升。
我们这里，主要验证zero-rl上使用这份合成数据是否有提升：
•如果合成数据质量差（prompt没答案/蒸馏数据的答案错误等等），道理上，base上的rl结果会比较惨淡
•如果合成数据质量较好，道理上，可以达到如orz/dapo/vapo的效果。
出于实验成本考虑，我们目前主要在qwen25-7b-base上进行了初步实验（还没有跑完训练）
base-model：qwen25-7b-base，rollout-num=16，learning-rate=1e-6

目前，只跑到550-step，但从上表可以看出，大部分数据集指标均接近orz-ppo的效果。orz-ppo为官方release的模型（使用57k数据训练）。

近期，TexttoRL[3]提出了一个textbook合成rl数据的方法，且在instruct-model上做rl也有一定的正向收益：
基于以上结果，有理由相信，左脚踩右脚的可能性和前景，毕竟prompt-cot的prompt生成模型只是llama3.1-8b
合理的prompt生成+reasoning-model蒸馏+答案投票（推理模型的投票能力都较强），可以为rl提供更多的答案可验证数据，进一步这些数据亦可用于pretrain阶段，提升数据的覆盖率，以及提供反事实数据（如加入不可解的问题等等）。
当然，现在llm的rl实验多数的说服力较低（RL的随机性更多：框架/推理引擎版本/随机数种子/各种未公开trick等等），以及大部分实验结果只报了一次实验的结果（可能只报了峰值结果，没有报多次实验的平均结果，当然也因为训练周期长，多次实验成本过高，所以，大部分结果需要理性对待）。
•prompt生成和policy解题放到一个训练流程里面，在线根据policy的评估效果调整prompt生成—>个性化模型训练/对抗训练
•采样引擎的问题会影响训练精度，尤其是rollout样本的分布。为了规避这部分的影响，需要更多的filter过滤样本，以及保持rollout-样本之间有足够的差异性/多样性（语料质量评估/多样性评估等等），还是那个观点：做好replay-buffer的数据质量/多样性控制，比硬调算法trick更关键，否则，很可能算法trick在解决replay-buffer的数据质量问题。

进技术交流群请添加AINLP小助手微信（id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区，专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

ZejunCao

https://zejuncao.github.io/2025/04/15/1000002282-2650448516-1/