【源头活水】视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源


【源头活水】视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
今天给大家重磅推荐一个突破性的视觉强化微调开源项目——Visual-RFT(VisualReinforcementFine-Tuning)。
论文地址:https ://arxiv.org/abs/2503.01785
代码地址:https ://github.com/Liuziyu77/Visual-RFT
视觉强化微调Visual-RFT将DeepSeek-R1背后的基于规则奖励的强化学习方法和OpenAI的强化微调(ReinforcementFine-Tuning,RFT)范式成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT打破了DeepSeek-R1方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
图1用一张包含许多宝可梦的图片展示了这一过程,当通过多模态强化微调Visual-RFT训练的模型被提问什么宝可梦可以释放技能十万伏特时,模型通过推理过程准确找出皮卡丘对应的坐标框,展示出模型的泛化能力。
图1.Visual-RFT首次实现将强化微调能力迁移到多模态模型中,只需10~1000条数据就能通过思考过程和基于规则的监督提升多模态大模型的性能
从R1到Visual-RFT:强化学习的多模态突破
OpenAIo1主打的强化微调能力(ReinforcementFine-Tuning)能只用少量样本就将o1迁移到新的任务上。最近DeepSeek-R1解释了o1模型背后的强推理能力来自基于可验证奖励(VerifiedRewards)/规则奖励(Rule-basedVerifier)的强化学习策略。不过,目前主流的认知在于这种基于规则奖励的方法只适用于数学推理、代码等少数便于验证的任务。我们在Visual-RFT中,将这一策略迁移到了视觉语言模型。通过对细分类、目标检测等任务建立对应的可验证规则奖励,我们解决了传统方法在视觉领域中的局限性,只需少量微调样本就实现了更高效、泛化性更强的视觉理解与推理能力。
传统的视觉指令微调(VisualInstructionTuning/SupervisedFine-Tuning,SFT)需要海量数据对模型微调,在数据量有限(例如某些难以收集数据的特定学科场景)的情况下带来的提升有限。我们提出的视觉强化微调(VisualReinforcementFine-Tuning)具有少样本学习能力和更强的泛化性,在数据量有限的场景下相比指令微调具有很大的优势。

图2.Visual-RFT(视觉强化微调)在各种任务上显著超越SFT:包括目标检测(OD),开放目标检测(OVD),少样本检测与分类(FSOD/IC),推理定位(ReasoningGrounding)
图3.框架图:Visual-RFT(视觉强化微调)通过IoU和cls奖励和强化学习策略(例如GRPO)更新模型参数

图4.部分推理定位结果展示,通过引入思考过程和强化学习策略Visual-RFT(多模态强化微调)显著超越SFT,更加准确地定位物体。
图5.部分推理细粒度分类结果展示,通过引入思考过程和强化学习策略,(多模态强化微调)Visual-RFT显著超越SFT,更加准确地定位物体。
部分模型输出结果展示如图4和图5所示,相比于传统的视觉指令微调(VisualInstruction/SupervisedFine-Tuning),Visual-RFT(视觉强化微调)通过强化学习方法,对问题进行深入的think分析取得更佳推理性能,相较于传统的指令微调(SFT)方法取得显著提升。如询问模型图中的运动员在水下依然保持清晰的视野需要带什么物体时,通过传统指令微调的方法模型直接将整个运动员框出。而Visual-RFT通过引入推理过程准确地指出防水眼镜及其所在的位置并准确框出。
Visual-RFT实验结果
Visual-RFT(视觉强化微调)在各大图文感知任务中均展现出强大的性能。我们的实验主要基于视觉语言大模型基座QWen2-VL2B/7B模型,和传统的监督微调(SupervisedFine-Tuning)方法进行对比。在开放目标检测,少样本检测,细粒度分类和推理定位任务上Visual-RFT相比SFT全面实现了性能提升。值得一提的是,我们的测试数据既包含COCO、LVIS等通用场景,又包含从互联网中收集的卡通人物等开放场景数据。只需要几十条数据,模型通过Visual-RFT可以学会检测某动漫中的史莱姆形象。实验结果广泛验证了Visual-RFT的卓越性能和鲁棒性。
图5.部分实验结果展示,Visual-RFT显著超越SFT,建立了新的模型微调范式
Visual-RFT已经开源!欢迎加入!
我们坚信开源的力量,Visual-RFT项目已全面开源(包含训练、评测代码,数据)。如果你对多模态模型、强化学习、视觉语言理解感兴趣,不妨一起来探索更多可能性吧!
项目地址:https ://github.com/Liuziyu77/Visual-RFT
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录