Synthetic-Data-Zero-RL:让 RL 左脚踩右脚
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
作者:haotianhttps ://zhuanlan.zhihu.com/p/1893339057834153258
如果想左脚踩右脚,一个核心问题是:如何构造合适的prompt,且答案相对比较准确,这样,我们就能不断生成prompt并获取到gold-answer,且用该数据集做rl的训练,提升policy-model的性能。更进一步可以针对当前policy-model的能力评估结果,针对性合成相关的数据,提升policy的能力。(当然,也可以根据测试集针对性构造测试集的模拟题)。
RL能否左脚踩右脚,很大程度上取决于能否“因材施教”即根据当前policy的性能,自动化合成prompt&gold-answer,针对性提升模型缺失的技能、思维方法等等。
prompt-cot的合成过程如下:
PromptCoT已验证蒸馏数据的sft效果:在1.5b/7b-r1-distill上面,均有较大幅度的提升。
我们这里,主要验证zero-rl上使用这份合成数据是否有提升:
•如果合成数据质量差(prompt没答案/蒸馏数据的答案错误等等),道理上,base上的rl结果会比较惨淡
•如果合成数据质量较好,道理上,可以达到如orz/dapo/vapo的效果。
出于实验成本考虑,我们目前主要在qwen25-7b-base上进行了初步实验(还没有跑完训练)
base-model:qwen25-7b-base,rollout-num=16,learning-rate=1e-6
目前,只跑到550-step,但从上表可以看出,大部分数据集指标均接近orz-ppo的效果。orz-ppo为官方release的模型(使用57k数据训练)。
近期,TexttoRL[3]提出了一个textbook合成rl数据的方法,且在instruct-model上做rl也有一定的正向收益:
基于以上结果,有理由相信,左脚踩右脚的可能性和前景,毕竟prompt-cot的prompt生成模型只是llama3.1-8b
合理的prompt生成+reasoning-model蒸馏+答案投票(推理模型的投票能力都较强),可以为rl提供更多的答案可验证数据,进一步这些数据亦可用于pretrain阶段,提升数据的覆盖率,以及提供反事实数据(如加入不可解的问题等等)。
当然,现在llm的rl实验多数的说服力较低(RL的随机性更多:框架/推理引擎版本/随机数种子/各种未公开trick等等),以及大部分实验结果只报了一次实验的结果(可能只报了峰值结果,没有报多次实验的平均结果,当然也因为训练周期长,多次实验成本过高,所以,大部分结果需要理性对待)。
•prompt生成和policy解题放到一个训练流程里面,在线根据policy的评估效果调整prompt生成—>个性化模型训练/对抗训练
•采样引擎的问题会影响训练精度,尤其是rollout样本的分布。为了规避这部分的影响,需要更多的filter过滤样本,以及保持rollout-样本之间有足够的差异性/多样性(语料质量评估/多样性评估等等),还是那个观点:做好replay-buffer的数据质量/多样性控制,比硬调算法trick更关键,否则,很可能算法trick在解决replay-buffer的数据质量问题。
进技术交流群请添加AINLP小助手微信(id:ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP是一个有趣有AI的自然语言处理社区,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。