【他山之石】北大、阿里等提出VLM-R³: 区域识别、推理与优化 — 增强多模态思维链的视觉交互新范式
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
论文链接:https ://arxiv. org/abs/2505. 16192
作者:ChaoyaJiang,YongruiHeng,WeiYe,HanYang,HaiyangXu,MingYan,JiZhang,FeiHuang,ShikunZhang
多模态大语言模型(MLLMs)最近已成为一种强大的范式,在跨不同模态(主要是视觉和语言)的理解和生成内容方面展现出非凡能力。O1、QvQ和Gemini2. 5等模型在MMMU、MathVista和ScienceQA等广泛任务上展示了令人印象深刻的性能。促成其高级推理能力的关键因素是整合了思维链(CoT)提示,这种方法引导出逐步推理路径,通常能产生更准确和可解释的输出。
尽管取得了这些进展,当前MLLMs在复杂推理过程中与视觉信息交互的方式仍存在关键限制。大多数采用CoT的现有方法主要将推理步骤限制在文本领域,仅在视觉输入上进行初始静态基础处理。这种范式在需要贯穿整个推理链对特定视觉区域进行动态、迭代和细粒度交互的场景中表现不足。
如上图所示,示例包括对照图像细节顺序验证假设、跟踪视觉线索中的对象状态、或理解复杂的空间关系——所有这些都需要更主动和适应性的视觉基础机制。
开发能在推理过程中具备图像\“再次观察\“能力的MLLM面临两个显著障碍:区域基础学习。模型必须学习在哪里聚焦以及如何基于部分文本推理转换基础区域(裁剪、缩放)。贡献度分配。简单地监督最终答案并不能教导模型所选区域是否实际上有助于正确推理,这使得完善视觉查询策略变得困难。
为弥补这一关键差距,本文做出两项主要贡献。首先,引入视觉-语言交错推理(VLIR),这是一个开创性的数据集,经过精心策划,支持MLLMs在交错文本-图像CoT推理方面的发展。VLIR提供视觉区域定位、图像裁剪指令和语义增强提示的显式注释,所有这些都嵌入在多步推理叙述中。其次,基于此,该文提出VLM-R³(具有区域识别和推理的视觉语言模型),这是一个设计用来掌握这种复杂推理风格的新框架。VLM-R³使用独特策略训练,结合了在VLIR数据集上的冷启动微调和新颖的区域条件强化策略优化(R-GRPO)。这使VLM-R³能够学习何时何地在图像中查看、如何处理定位的视觉证据(例如通过裁剪或请求增强),以及如何将这些动态获取的信息整合到其不断发展的推理链中。
区域识别(RegionRecognition):模型能够自主判断何时需要额外的视觉证据
区域推理(RegionReasoning):模型能够智能决定在图像中的何处进行定位和聚焦
区域优化(RegionRefinement):模型能够将定位到的子图像内容(例如通过裁剪、缩放等变换获得)无缝地融入到其交错进行的视觉-文本思维链中
R-GRPO旨在解决模型学习\“何时看\“、\“何处看\“以及如何有效整合新视觉信息的复杂决策过程。其核心机制包括:
R-GRPO通过强化学习优化一个策略,该策略决定在推理的每一步是否需要以及在何处获取新的视觉信息(通过生成边界框指令)。
为了引导模型学习理想的行为,文中设计了多维度奖励信号,包括:
准确性奖励():对最终答案的正确性进行奖励
格式遵循奖励():确保输出符合预定义的标签格式
区域有效性奖励():对生成语法正确且非冗余的边界框指令给予奖励
推理长度奖励():鼓励模型生成合理的推理步骤
为了有效地训练和引导VLM-R³掌握这种高级的交互式推理能力,该文构建了视觉-语言交错基本原理(Visuo-LingualInterleavedRationale,VLIR)语料库。VLIR是首个专为训练和评估MLLM在具有显式区域级交互的交错视觉-文本CoT推理方面量身定制的基准数据集。
该数据集提供了在多步推理叙事中嵌入的视觉区域定位、图像裁剪指令和语义增强线索的明确标注,为模型学习区域选择和文本论证提供了宝贵的步骤级监督。
VLM-R³的评估涵盖了六个公开基准数据集,全面测试了模型在不同场景下的表现能力:
通用视觉-语言理解:MME和MMMU数据集
复杂数学推理:MathVista和MathVision数据集
科学问答能力:ScienceQA数据集
文档理解能力:DocQA数据集
此外,还通过HallucinationBench评估了模型的幻觉率,以检验模型输出的可靠性。
实验中将VLM-R³与三类多模态模型进行对比:
无显式推理能力的开源基线模型:
Qwen2. 5-VL7B(也作为主要基线模型)
InternVL2. 5-8B
LLaVA-Next8B
闭源非推理系统:
Gemini-2Flash
GPT-4o
配备专用推理模块的模型:
LLaVA-CoT11B
Mulberry-Qwen2VL7B
R1-onevision7B
为了探索性能上限,还将结果与更大规模的闭源模型o1进行了比较。
基于Qwen2. 5-VL7B架构构建的VLM-R³模型在所有基准测试中均优于其基础模型,特别是在需要精确视觉推理和细粒度理解的领域中取得了显著提升:
MathVista:相比基线提升2. 2%(70. 4%vs. 68.2%)
MathVision:显著提升5. 1%(30. 2%vs. 25.1%),突显了该文方法在需要仔细关注视觉细节的数学推理任务中的有效性
ScienceQA:大幅提升14. 33%(87. 90%vs. 73.57%),进一步证明了VLM-R³在科学推理中的卓越能力,其中视觉证据的动态定位至关重要
为了理解VLM-R³方法的有效性,对交错推理链与视觉区域定位和传统文本推理链进行了对比分析。上图展示了两种方法在回答相同视觉查询时的注意力分布模式。相关分析揭示了一个关键发现:在传统方法中,当图像放置在序列开始处时,随着推理链的推进,对视觉信息的注意力显著减弱。
如上图下半部分所示,一般的多模态大语言模型在推理过程中逐渐失去视觉上下文,导致错误推断。相比之下,VLM-R³通过动态定位和整合相关视觉区域,在整个推理过程中保持持续的视觉注意力。
注意力热图显示,推理过程后期生成的标记仍然与裁剪的视觉区域保持强烈的注意力连接。这种区域特定的注意力使模型能够正确识别蓝色物体为雨伞。
这种深入的视觉区域探索能力使VLM-R³能够捕捉到传统方法容易忽视的细微视觉细节,从而在需要持续视觉关注的复杂推理任务中取得更好的表现。实验结果表明,将视觉注意力机制与推理过程紧密结合是提高多模态模型表现的关键因素。
最后,以上给出了VLM-R³的真实推理样例,如上图所示,VLM-R³根据推理需要,通过对图像区域的定位,分割等在思维链中引入关键视觉区域,形成了图文交错推理链,有效地提升了模型推理的效果。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!