IDEA 团队新作 | Rex-Thinker:通过 CoT Reasoning 推理实现稳健的指代表达理解
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
本文聚焦于指代性短语理解(ReferringExpressionComprehension,REC)这一关键任务,旨在通过自然语言描述在图像中准确定位特定目标。与传统目标检测方法不同,该任务不仅依赖对视觉信息的解析,还要求模型理解语言中的属性细节、空间关系以及语义交互。
为此,来自IDEA、华南理工大学以及北大的研究人员共同提出了Rex-Thinker[ 1],一个以可解释性与可验证性为核心设计理念的模型。
Rex-Thinker构建了特定的“思考模式(Pattern)”,通过开放词汇对象检测器GroundingDINO获取与目标类别相关的全部候选目标框,并进一步利用Chain-of-Thought(CoT)推理链对这些候选进行逐步筛选与判断。最终,采用基于RL的CoTReasoning方法实现对模型的推理增强与后训练对齐,有效提升准确性与透明度。
💡特别提示:尽管模型设计强调“类人推理”,但笔者在深入分析中发现——当前主流CoT式推理仍高度依赖统计相关性,缺乏真正的多路径验证与归纳能力,难以有效纠正自身错误。这一发现我们留到文末部分进行论述,值得关注。
目前主流的支持REC任务的VLMs大致可以分为两派:
1. 直接预测派:像GPT-4V那样,直接将边界框的坐标当作文本token输出。
2. 检索选择派:先用一个目标检测器在图里框出所有可能的候选对象,然后让大模型从这些候选中“选择”出正确答案。
这两种方法在标准数据集上都取得了不错的成绩。但它们共同的“痛点”在于过程的不透明性。模型给出答案,但我们无从知晓其决策依据。这就引出了两个关键问题,也是Rex-Thinker提出的理想模型应具备的两个特性:
1. 可验证性(Verifiable):模型的预测过程应该是可解释的,每一步推理都应当有据可循,能够清晰地关联到图像中的具体证据。就像一个侦探破案,需要展示完整的证据链,而不是直接宣布凶手。
2. 可信赖性(Trustworthy):当图像中不存在符合描述的对象时,模型应该能够自信地“拒绝回答”,而不是产生幻觉。这在现实世界的应用中至关重要,一个不可靠的系统比一个能力有限的系统更危险。
想象一下,一个机器人助手,你让它“递给我桌上那杯蓝色的水”,结果桌上只有红色的杯子。一个“可信赖”的助手会告诉你“对不起,没有蓝色的杯子”,而一个不可靠的助手可能会递给你红色的杯子,并坚称它是蓝色的。Rex-Thinker的目标,就是培养前者。
为实现这一目标,本文不再将REC视为一个简单的“输入-输出”映射,而是将其建模为一个显式的思维链(Chain-of-Thought,CoT)推理任务。
具体来说,整个过程被分解为三个结构化的步骤,正下图所示:
1. 规划(Planning)
首先,模型会分析输入的指令,将其分解成一个可执行的计划。举个例子:如果指令是“找到坐在乌龟上的人”,模型会规划出“第一步,找到图里所有的乌龟。第二步,检查每只乌龟上是否坐着人”之类的指令。
2. 行动(Action)
其次,模型将严格按照计划,一步步执行。它会评估每一个候选对象是否满足当前子任务。例如,模型会逐一检查图中的所有“人”(这些候选框由GD预先提供),并判断:“Person1,坐在秋千上,不是。Person2,坐在绿色的乌龟上,是!”这里的每一步判断都与一个具体的图像区域(候选框)紧密绑定。
3. 总结(Summarization)
最后,综合所有“行动”步骤的结果,模型会进行复核,并给出最终的、格式化的答案。比如针对上述例子,模型会“重新检查:Person1,2,4,5都不在乌龟上。Person3在乌龟上。最终答案是Person3的边界框。”
这个“规划-行动-总结”的框架,就是Rex-Thinker的思考模式(Pattern)。它的特点在于:
•过程透明:每一步推理都以文本形式呈现,我们可以清晰地看到模型的思考逻辑。
•决策有据:每一步“行动”都与一个候选框相关联,使得推理过程牢牢地锁定到视觉内容上。
•拒绝能力:如果在“行动”阶段,所有候选者都被排除了,模型自然会在“总结”阶段得出“没有找到”的结论,从而有效地抑制幻觉。
有了好的思考框架,还需要一本好的“教科书”和一套高效的“训练方法”。
为了让模型学会上述“规划-行动-总结”CoT模式,研究人员构建了一个名为HumanRef-CoT的大规模思维链数据集。
具体实现上就是利用GPT-4o,结合精巧的Set-of-Mark提示工程(在图中用带编号的彩色标记框出候选对象,绿色为正确答案,红色为错误答案),引导GPT-4o按照“规划-行动-总结”的格式,为HumanRef数据集中的每一条数据生成高质量的推理过程标注。
如此一来,我们便能为模型提供丰富的、结构化的学习范例。
Rex-Thinker的训练分为两个阶段,这种范式也深受DeepSeek-R1[ 2]等工作的启发。
第一阶段利用SFT做了冷启动,其目的是让模型首先学会CoT的基本格式和流程,实现上就是使用上述HumanRef-CoT数据集进行标准的监督学习。模型被训练去模仿数据集里给出的标准推理过程和答案。
第二阶段是基于标准的GRPO强化学习训练流程,设计格式奖励和准确性奖励做对齐优化,进一步提升模型的准确率和泛化能力。通过这种方式,模型不仅巩固了CoT的能力,还能自我优化,发现比SFT标注更优的推理捷径。
首先来看下域内表现,从上述表2可以看出,相比于不带CoT的基线模型(Rex-Thinker-Plain),引入CoT的Rex-Thinker-CoT在“Rejection”子集上的得分从53. 5飙升到67.3。这是一个巨大的提升,直接证明了CoT推理在抑制幻觉、提升模型可信赖性方面的巨大威力。
此外,经过GRPO强化后,模型在各个子集上的性能都得到了进一步提升,最终在平均DF1分数上达到了83. 5,超越了同时期的SOTA模型。
如图4展示,当指令是“找到蝠鲼”时,即使候选框里有一个被错误地标记为“鱼”的“鲸鱼”,Rex-Thinker也能在推理过程中识别出“它是一头座头鲸(不是鱼)”。所以,可以看到当一个只在包含“Human”数据集上训练过的Rex-Thinker,被直接拿去测试一个包含各种物体的通用数据集(RefCOCOg)时它依然能够很好地遵循CoT范式进行推理,这足以证明模型在跨类别推理上也得到了增强。
这些实验结果有力地证明了,Rex-Thinker所提倡的CoT推理框架,不仅提升了模型的性能和可解释性,更关键的是,它赋予了模型一种更接近人类思考方式的、稳健的、可泛化的解决问题的能力。
首先第一个显而易见的局限性便是推理速度,下表报告了在单张A100下基于vLLM框架推理的数据:
可以看到,不带CoT的Rex-Thinker-Plain模型推理一次平均耗时1. 13秒,而带有完整CoT推理链的Rex-Thinker-GRPO则高达6. 68秒,一方面是模型本身的大小(7B),另一方面则是生成长篇的“规划-行动-总结”思考过程注定非常耗时。
其次,论文提到,模型偶尔会出现推理过程与最终答案不一致(InconsistentReasoning)的情况:
上图展示了一个例子,模型在“行动”环节的文本推理中,明确识别出了9个背景中的人物,但在最终输出的JSON答案里,却只给出了8个人的边界框。
为什么会出现这种“想一套,做一套”的情况?根源可能在于SFT和GRPO两个训练阶段的监督方式存在本质差异。
在SFT阶段,模型被严格要求每一个输出的token都要和标准答案里的token完全一致。此时,推理文本和最终答案是强行对齐的。而RL阶段,GRPO的目标是最大化一个最终的“任务奖励”,在本文中主要是预测框的F1-score。只要最终的JSON答案能获得高分,模型在中间的CoT推理文本上就有了一定的搜索空间。
这就会导致一个问题,模型在探索中可能会发现,即使推理过程存在一点小瑕疵(比如多数了一个或少数了一个),只要不影响最终答案的F1-score,奖励函数并不会对此进行惩罚。久而久之,模型便可能出现某种形式意义下的RewardHacking,导致了推理与答案的脱节。
第三方面是关于潜力、隐私与偏见的讨论,此处不做讨论,感兴趣的可以看下原文。
鉴于官方目前也提供了个在线演示demo[ 3],我在pixabay[ 4]随机下载了一张高清的行人图片进行测试,这里我们以人员佩戴口罩这个简单的指代任务为例看下效果:
如图所示,令人遗憾的是,模型给出了一个明显且荒谬的错误判断。事实上,原图中的目标不仅轮廓清晰、尺寸充足,图像整体分辨率也相当高,几乎不存在感知难度:
可见,当前模型存在以下三大问题:
当前模型的推理机制如下:GroundingDINO会负责前期的目标候选区域检测获取对应的坐标框和类别,RexThinker则负责多模态推理(用提示词和图像进行细粒度目标定位/描述生成),它们通过“候选框+ReferringPrompt+图像”进行协同推理。
具体地,参考如下提示模板:
如上述例子,cate_name就是页面中的[ ObjectCategoryNametogetCandidateboxes]的输入,用于GroundingDINO输入:
而referring_expression就是用户输入的Instruction,最终合并到question整合进模板作为payload.
如上图,模型在第一步的人物识别中便出现了数量冗余或遮挡误判,尽管这不是致命问题,但为后续推理引入了噪声,容易累积错误。
可见,这种当前模型采用“预检测+语言推理”的串联式结构,视觉模块负责候选框生成,VLMs负责后续的选择和推理;这种范式一旦视觉感知出现细微错误,语言模型往往无法依靠自身能力补救或缺乏逆向推理能力,从而导致推理链条断裂。
我们先来看下模型的前置推理逻辑:
可以清晰的看到,Person1-Person6的预判和分析是正确的。Person7其实是“远处”一个虚焦的背景对象,模型开始出现了误检;而Person8-Person9模型认为信息不足以判断,先做保留,这一块的处理是合理的。
由此可见,当前模型在不同可见性、清晰度和语境信息量差异下的目标理解能力仍不稳定,表现出一定的认知泛化能力不足。
让我们继续看下模型的后半段推理:
从结果来看,所谓的“Re-Check”流程流于形式,仅重复初次判断结果,压根无法识别自身错误或进行逻辑修正,从而导致模型错误判断被错误地“确认”,反映出推理过程缺乏冗余性和深度验证路径。
综上所述,尽管当前模型普遍采用“Chain-of-Thought”式结构,但其推理过程往往呈现出线性、单向、不可逆的特点,缺乏人类推理中常见的多路径验证、假设检验与反事实分析等机制。这使得一旦出现偏差,模型难以自我纠正,导致推理脆弱、鲁棒性不足。
这也进一步印证了一个事实:当前多数由大语言模型(LLMs)驱动的多模态推理系统,本质上仍高度依赖统计相关性,而未真正实现语义理解与归纳推理的能力涌现。
需要指出的是,这并非Rex-Thinker一家的局限,而是当下所有依赖大模型进行视觉语言推理的模型普遍面临的挑战。唯有在“推理透明性”“感知鲁棒性”与“验证机制”三者之间实现平衡,模型才有可能朝着更可信、可解释、稳健的通用人工智能迈进一步。