仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文标题很直白,VLM-R³[ 1],一眼看过去就知道是关于视觉语言模型的。
这里三个R分别代表:RegionRecognition(区域识别)、Reasoning(推理)和Refinement(优化)。
如图,它非常形象地展示了现有视觉语言模型在复杂视觉推理任务上的“窘境”和VLM-R³的“优雅”:
左边展示的是一般的VLMs的输出,面对一张街景图问“这是哪个城市?”它可能会识别出中文招牌、现代建筑,然后给出一个猜测,比如“可能是中国的某个大城市,比如上海、北京……”但当招牌上的关键信息“洪崖洞”没有被充分关注和理解时,它就可能错过正确答案“重庆”。这种传统的CoT更多是在文本层面打转,对视觉信息的利用往往是“一次性”的、静态的。
而右边展示的是本文方法,它会“思考”:
1.“嗯,有高楼、灯牌,像个城市。”
2.“红灯笼和建筑风格有点意思,但还不够具体。”
3.“我需要放大看看那个发光的招牌上写了什么。”(区域识别与决策)👉系统进行crop和zoom操作。
4.“招牌上是‘洪崖洞火锅’,这可是重庆的知名品牌/地标!”(结合新视觉信息的推理)
5. 得出结论:“这很可能是在重庆。”
可以看出,VLM-R³具备了一种动态的、迭代的视觉信息聚焦能力。它不再是看一眼图片就完事,而是能根据推理的需要,“回过头”去仔细看图片的关键区域,这种“lookagain”的能力,正是此前很多VLMs所欠缺的。
那么,VLM-R³究竟是如何做到这一点的呢?论文提出了一个精巧的框架,其核心在于以下几个方面:
1. 决策何时需要“看得更仔细”:模型在推理过程中,能够判断当前信息是否足以回答问题,如果不足,则主动发起对视觉信息的再次探索。
2. 定位“应该看哪里”:一旦决定需要更仔细地看,模型能预测出图像中需要关注的关键区域(给出boundingbox)。
3. 融合“看到的新信息”:将选定区域经过处理(如裁剪、缩放)后的新视觉信息,无缝地整合回当前的思维链条中,继续推理。
为了实现这套复杂的“组合拳”,作者们主要提出了两点贡献:
Visuo-LingualInterleavedRationale是个精心构建的“教科书”。传统的CoT数据集往往只关注最终答案的正确性,而VLIR则提供了步骤级别的监督信号,明确标注了在推理的每一步,应该关注哪个图像区域、进行怎样的文本解释。
这对于模型学习“如何看”和“如何思考”至关重要。从图中可以看出,VLIR数据集涵盖了GQA、TextVQA、DocVQA等多种主流数据来源,确保了场景的多样性。
在VLIR数据集上进行初步的监督微调(cold-startfinetuning)后,模型初步掌握了这种交错图文的推理模式。
但为了让模型在更广泛的场景下做出更优的“视觉决策”(比如选择哪个区域、如何变换),作者引入了RL。
R-GRPO会根据模型选择区域的有效性、推理的逻辑性以及最终答案的准确性给予“奖励”或“惩罚”,从而优化其视觉信息获取和整合的策略。
这里的“Region-Conditioned”是关键,意味着策略的制定是与当前视觉状态(包括动态融入的区域图像)紧密相关的。
论文中提到奖励函数包括四块:
•准确率奖励(r_acc):最终答案正确与否。
•格式遵循奖励(r_format):是否按规定格式输出。
•区域有效性奖励(r_valid):选择的区域是否真的包含了有意义的语义单元。
•推理长度奖励(r_length):鼓励生成合理的推理步骤。
•在对细粒度视觉细节要求极高的MathVista和MathVision数学推理任务上,VLM-R³相较于其基座模型Qwen2. 5-VL分别提升了2. 2%和5. 1%。这充分说明了其在需要仔细观察和理解图表、公式等视觉元素的场景下的优势。
•在ScienceQA科学问答上,性能提升更是达到了惊人的14. 33%(从73. 6%到87. 9%)。科学问答往往涉及复杂的图表理解和多步推理,VLM-R³的动态视觉聚焦能力在这里得到了淋漓尽致的发挥。
•即使是与参数量更大的闭源模型o1相比,VLM-R³在某些任务上也表现不俗,甚至在ScienceQA和DocVQA上更优。
•w/oInterleavedChain-of-Thought:如果去掉了图文交错的思维链,仅仅依赖文本描述来指代区域(不实际输入裁剪后的图像),性能在ScienceQA上骤降12. 5%,在MMMU上也有2. 8%的下降。这说明,“百闻不如一见”,真正把关键区域的图像信息“喂”给模型,远比单纯用文字描述要有效得多。
•w/oVLIRFine-tuning:如果跳过VLIR数据集的监督微调,直接进行R-GRPO训练,模型在ScienceQA上性能下降15. 7%,MMMU上下降5. 2%。更重要的是,作者提到,缺少VLIR微调会导致模型难以遵循指令,例如无法正确生成boundingbox的格式。这表明,VLIR数据集为模型打下了良好的“看图说话、按图索骥”的基础。
•w/oR-GRPO:如果只用VLIR进行监督微调,而不进行后续的强化学习优化,性能在ScienceQA上下降3. 28%,MathVista上下降0. 7%。可以看出,R-GRPO能够进一步优化模型在复杂场景下的视觉决策能力,使其超越单纯的模仿学习。
上图直观地显示了模型定位关键区域的准确度与其在下游任务上的性能呈正相关。
其中,在ScienceQA、MathVista和MMMU上,随着区域定位准确率从40%提升到90%,模型性能也随之显著提升。
这再次强调了“看得准”是“想得对”的前提。
上半部分是VLM-R³的注意力分布,可以看到,即使在推理后期生成的token,其注意力依然能强烈地连接到先前裁剪出的关键视觉区域(图中高亮显示的雨伞)。
而下半部分的一般VLMs,在推理链条变长后,对初始图像的注意力逐渐减弱,导致错误地将雨伞识别成了“菜单板”。
这清晰地揭示了VLM-R³通过动态引入和聚焦关键视觉区域,有效避免了传统MLLM在长程推理中视觉信息衰减的问题。
以下是针对“总结与思考”部分的专业化、逻辑化优化版本,提升了行文的严谨性、信息密度与总结力:
VLM-R³针对当前主流视觉语言模型在复杂推理场景下“静态理解、粗略感知”的共性短板,提出了一套更具动态感知与推理能力的系统性解决方案。其核心创新,在于引入区域级视觉感知-推理-再感知的闭环流程,使得模型具备了“反复凝视、逐步理解”的能力,而非一次性处理全图的表层方式。
具体而言,VLM-R³的优势建立在两个关键机制之上:
1. VLIR数据集为模型提供了细粒度、步骤化的图文交错监督,填补了传统CoT数据集中“看哪里、为何而看”的训练空白;
2. R-GRPO强化学习机制则在此基础上进一步提升了视觉决策的主动性与精确性,使模型能够在推理过程中动态调整关注焦点,实现策略级的最优信息获取。
这一范式转变,与近期我们介绍过的GRIT与PixelReasoner等研究方向一脉相承,标志着多模态大模型正逐步从静态理解工具,迈向具有主动感知与策略性推理能力的智能体系统。
这些方法共同体现了一种多模态推理范式的进化趋势:从“图像喂入→文本生成”的单向信息流,向“视觉-语言双向联动”的交互式推理架构演进。模型不仅能借助语言推理动态指引视觉聚焦,还能将新获取的图像区域反哺至语言决策流程中,从而实现多轮交互、信息递进、语义深化的闭环推理过程。
未来的视觉语言模型,不仅需要“看得见、说得出”,更需要像人一样,思前想后、反复观察、基于目的主动获取信息。
[1]VLM-R³:https ://arxiv. org/pdf/2505. 16192v1