IDEA 团队新作 | Rex-Thinker：通过 CoT Reasoning 推理实现稳健的指代表达理解

发布日期: 2025-06-08

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本文聚焦于指代性短语理解(ReferringExpressionComprehension,REC)这一关键任务，旨在通过自然语言描述在图像中准确定位特定目标。与传统目标检测方法不同，该任务不仅依赖对视觉信息的解析，还要求模型理解语言中的属性细节、空间关系以及语义交互。
为此，来自IDEA、华南理工大学以及北大的研究人员共同提出了Rex-Thinker[ 1]，一个以可解释性与可验证性为核心设计理念的模型。
Rex-Thinker构建了特定的“思考模式（Pattern）”，通过开放词汇对象检测器GroundingDINO获取与目标类别相关的全部候选目标框，并进一步利用Chain-of-Thought（CoT）推理链对这些候选进行逐步筛选与判断。最终，采用基于RL的CoTReasoning方法实现对模型的推理增强与后训练对齐，有效提升准确性与透明度。
💡特别提示：尽管模型设计强调“类人推理”，但笔者在深入分析中发现——当前主流CoT式推理仍高度依赖统计相关性，缺乏真正的多路径验证与归纳能力，难以有效纠正自身错误。这一发现我们留到文末部分进行论述，值得关注。
目前主流的支持REC任务的VLMs大致可以分为两派：
1. 直接预测派：像GPT-4V那样，直接将边界框的坐标当作文本token输出。
2. 检索选择派：先用一个目标检测器在图里框出所有可能的候选对象，然后让大模型从这些候选中“选择”出正确答案。
这两种方法在标准数据集上都取得了不错的成绩。但它们共同的“痛点”在于过程的不透明性。模型给出答案，但我们无从知晓其决策依据。这就引出了两个关键问题，也是Rex-Thinker提出的理想模型应具备的两个特性：
1. 可验证性(Verifiable)：模型的预测过程应该是可解释的，每一步推理都应当有据可循，能够清晰地关联到图像中的具体证据。就像一个侦探破案，需要展示完整的证据链，而不是直接宣布凶手。
2. 可信赖性(Trustworthy)：当图像中不存在符合描述的对象时，模型应该能够自信地“拒绝回答”，而不是产生幻觉。这在现实世界的应用中至关重要，一个不可靠的系统比一个能力有限的系统更危险。
想象一下，一个机器人助手，你让它“递给我桌上那杯蓝色的水”，结果桌上只有红色的杯子。一个“可信赖”的助手会告诉你“对不起，没有蓝色的杯子”，而一个不可靠的助手可能会递给你红色的杯子，并坚称它是蓝色的。Rex-Thinker的目标，就是培养前者。
为实现这一目标，本文不再将REC视为一个简单的“输入-输出”映射，而是将其建模为一个显式的思维链(Chain-of-Thought,CoT)推理任务。
具体来说，整个过程被分解为三个结构化的步骤，正下图所示：
1. 规划(Planning)
首先，模型会分析输入的指令，将其分解成一个可执行的计划。举个例子：如果指令是“找到坐在乌龟上的人”，模型会规划出“第一步，找到图里所有的乌龟。第二步，检查每只乌龟上是否坐着人”之类的指令。
2. 行动(Action)
其次，模型将严格按照计划，一步步执行。它会评估每一个候选对象是否满足当前子任务。例如，模型会逐一检查图中的所有“人”（这些候选框由GD预先提供），并判断：“Person1，坐在秋千上，不是。Person2，坐在绿色的乌龟上，是！”这里的每一步判断都与一个具体的图像区域（候选框）紧密绑定。
3. 总结(Summarization)
最后，综合所有“行动”步骤的结果，模型会进行复核，并给出最终的、格式化的答案。比如针对上述例子，模型会“重新检查：Person1,2,4,5都不在乌龟上。Person3在乌龟上。最终答案是Person3的边界框。”
这个“规划-行动-总结”的框架，就是Rex-Thinker的思考模式(Pattern)。它的特点在于：
•过程透明：每一步推理都以文本形式呈现，我们可以清晰地看到模型的思考逻辑。
•决策有据：每一步“行动”都与一个候选框相关联，使得推理过程牢牢地锁定到视觉内容上。
•拒绝能力：如果在“行动”阶段，所有候选者都被排除了，模型自然会在“总结”阶段得出“没有找到”的结论，从而有效地抑制幻觉。
有了好的思考框架，还需要一本好的“教科书”和一套高效的“训练方法”。
为了让模型学会上述“规划-行动-总结”CoT模式，研究人员构建了一个名为HumanRef-CoT的大规模思维链数据集。
具体实现上就是利用GPT-4o，结合精巧的Set-of-Mark提示工程（在图中用带编号的彩色标记框出候选对象，绿色为正确答案，红色为错误答案），引导GPT-4o按照“规划-行动-总结”的格式，为HumanRef数据集中的每一条数据生成高质量的推理过程标注。
如此一来，我们便能为模型提供丰富的、结构化的学习范例。
Rex-Thinker的训练分为两个阶段，这种范式也深受DeepSeek-R1[ 2]等工作的启发。
第一阶段利用SFT做了冷启动，其目的是让模型首先学会CoT的基本格式和流程，实现上就是使用上述HumanRef-CoT数据集进行标准的监督学习。模型被训练去模仿数据集里给出的标准推理过程和答案。
第二阶段是基于标准的GRPO强化学习训练流程，设计格式奖励和准确性奖励做对齐优化，进一步提升模型的准确率和泛化能力。通过这种方式，模型不仅巩固了CoT的能力，还能自我优化，发现比SFT标注更优的推理捷径。
首先来看下域内表现，从上述表2可以看出，相比于不带CoT的基线模型（Rex-Thinker-Plain），引入CoT的Rex-Thinker-CoT在“Rejection”子集上的得分从53. 5飙升到67.3。这是一个巨大的提升，直接证明了CoT推理在抑制幻觉、提升模型可信赖性方面的巨大威力。
此外，经过GRPO强化后，模型在各个子集上的性能都得到了进一步提升，最终在平均DF1分数上达到了83. 5，超越了同时期的SOTA模型。
如图4展示，当指令是“找到蝠鲼”时，即使候选框里有一个被错误地标记为“鱼”的“鲸鱼”，Rex-Thinker也能在推理过程中识别出“它是一头座头鲸（不是鱼）”。所以，可以看到当一个只在包含“Human”数据集上训练过的Rex-Thinker，被直接拿去测试一个包含各种物体的通用数据集（RefCOCOg）时它依然能够很好地遵循CoT范式进行推理，这足以证明模型在跨类别推理上也得到了增强。
这些实验结果有力地证明了，Rex-Thinker所提倡的CoT推理框架，不仅提升了模型的性能和可解释性，更关键的是，它赋予了模型一种更接近人类思考方式的、稳健的、可泛化的解决问题的能力。
首先第一个显而易见的局限性便是推理速度，下表报告了在单张A100下基于vLLM框架推理的数据：
可以看到，不带CoT的Rex-Thinker-Plain模型推理一次平均耗时1. 13秒，而带有完整CoT推理链的Rex-Thinker-GRPO则高达6. 68秒，一方面是模型本身的大小（7B），另一方面则是生成长篇的“规划-行动-总结”思考过程注定非常耗时。
其次，论文提到，模型偶尔会出现推理过程与最终答案不一致（InconsistentReasoning）的情况：
上图展示了一个例子，模型在“行动”环节的文本推理中，明确识别出了9个背景中的人物，但在最终输出的JSON答案里，却只给出了8个人的边界框。
为什么会出现这种“想一套，做一套”的情况？根源可能在于SFT和GRPO两个训练阶段的监督方式存在本质差异。
在SFT阶段，模型被严格要求每一个输出的token都要和标准答案里的token完全一致。此时，推理文本和最终答案是强行对齐的。而RL阶段，GRPO的目标是最大化一个最终的“任务奖励”，在本文中主要是预测框的F1-score。只要最终的JSON答案能获得高分，模型在中间的CoT推理文本上就有了一定的搜索空间。
这就会导致一个问题，模型在探索中可能会发现，即使推理过程存在一点小瑕疵（比如多数了一个或少数了一个），只要不影响最终答案的F1-score，奖励函数并不会对此进行惩罚。久而久之，模型便可能出现某种形式意义下的RewardHacking，导致了推理与答案的脱节。
第三方面是关于潜力、隐私与偏见的讨论，此处不做讨论，感兴趣的可以看下原文。
鉴于官方目前也提供了个在线演示demo[ 3]，我在pixabay[ 4]随机下载了一张高清的行人图片进行测试，这里我们以人员佩戴口罩这个简单的指代任务为例看下效果：
如图所示，令人遗憾的是，模型给出了一个明显且荒谬的错误判断。事实上，原图中的目标不仅轮廓清晰、尺寸充足，图像整体分辨率也相当高，几乎不存在感知难度：
可见，当前模型存在以下三大问题：
当前模型的推理机制如下：GroundingDINO会负责前期的目标候选区域检测获取对应的坐标框和类别，RexThinker则负责多模态推理（用提示词和图像进行细粒度目标定位/描述生成），它们通过“候选框+ReferringPrompt+图像”进行协同推理。
具体地，参考如下提示模板：
如上述例子，cate_name就是页面中的[ ObjectCategoryNametogetCandidateboxes]的输入，用于GroundingDINO输入：
而referring_expression就是用户输入的Instruction，最终合并到question整合进模板作为payload.
如上图，模型在第一步的人物识别中便出现了数量冗余或遮挡误判，尽管这不是致命问题，但为后续推理引入了噪声，容易累积错误。
可见，这种当前模型采用“预检测+语言推理”的串联式结构，视觉模块负责候选框生成，VLMs负责后续的选择和推理；这种范式一旦视觉感知出现细微错误，语言模型往往无法依靠自身能力补救或缺乏逆向推理能力，从而导致推理链条断裂。
我们先来看下模型的前置推理逻辑：
可以清晰的看到，Person1-Person6的预判和分析是正确的。Person7其实是“远处”一个虚焦的背景对象，模型开始出现了误检；而Person8-Person9模型认为信息不足以判断，先做保留，这一块的处理是合理的。
由此可见，当前模型在不同可见性、清晰度和语境信息量差异下的目标理解能力仍不稳定，表现出一定的认知泛化能力不足。
让我们继续看下模型的后半段推理：
从结果来看，所谓的“Re-Check”流程流于形式，仅重复初次判断结果，压根无法识别自身错误或进行逻辑修正，从而导致模型错误判断被错误地“确认”，反映出推理过程缺乏冗余性和深度验证路径。
综上所述，尽管当前模型普遍采用“Chain-of-Thought”式结构，但其推理过程往往呈现出线性、单向、不可逆的特点，缺乏人类推理中常见的多路径验证、假设检验与反事实分析等机制。这使得一旦出现偏差，模型难以自我纠正，导致推理脆弱、鲁棒性不足。
这也进一步印证了一个事实：当前多数由大语言模型（LLMs）驱动的多模态推理系统，本质上仍高度依赖统计相关性，而未真正实现语义理解与归纳推理的能力涌现。
需要指出的是，这并非Rex-Thinker一家的局限，而是当下所有依赖大模型进行视觉语言推理的模型普遍面临的挑战。唯有在“推理透明性”“感知鲁棒性”与“验证机制”三者之间实现平衡，模型才有可能朝着更可信、可解释、稳健的通用人工智能迈进一步。