开放词汇目标检测范式再升级!零样本识别 + 思维链推理双加持!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
以下文章来源于微信公众号:码科智能
作者:视觉大模型
链接:https ://mp. weixin.qq. com/s/hDqnoYYxiWtiHH98h6O4TA
本文仅用于学术分享,如有侵权,请联系后台作删文处理
导读
传统检测模型难应对开放场景中的复杂表达,Rex-Thinker等新模型通过语言引导与多步推理,实现了基于自然语言精准定位图像中目标的“指代物体检测”,突破视觉理解新范式。
在上篇文章中提到,GPT-4o、Qwen2-VL等多模态模型已经能够结合图像和文本完成复杂的视觉理解任务,例如图像描述、视觉问答、指令执行等。但一个不争的事实是:它们在任何视觉任务上的表现,都无法与最先进的专家模型相提并论!
那么问题来了:这些性能强大的专家模型,就是我们要追求的目标吗?从通用性和泛化能力来看,答案显然是否定的,比如上图中要检测成熟的西红柿。
以YOLOv8为例,它需要大量标注数据,对预定义类别高度依赖,必须为每个特定任务单独微调,限制了模型在动态场景中的实用性!
一些面向开放场景的新模型,比如YOLO-World和GroundingDINO。它们通过引入提示机制和离线词表匹配,实现了对未知类别的检测能力。
然而,即便是开放词汇模型,在面对更复杂、更贴近人类表达方式的任务时,依然效果堪忧。因此就需要本文的指代物体检测(GroundedObjectReferencing),其是一个比开放词汇检测更进一步的任务。它的核心目标是:根据一句自然语言描述,精准定位图像中的某个特定对象。先来看例子:
根据一句自然语言描述,精准定位图像中的某个特定对象。就像上图那些例子的内容:帮我检测坏的集装箱、检测运动员号码牌为奇数的目标、赛车场的第一名是哪个等。当描述不存在于图像中,模型不会强行作答,如下图所示。
不同于传统的“识别所有猫”或“找出所有动物”,而是要求AI能够理解语句中的细节描述,并在图像中找到唯一对应的个体。这不仅需要模型具备强大的语言理解和视觉感知能力,还需要它能进行细粒度的属性判断(颜色、服饰、位置、动作等)和逻辑推理。
IDEA开源的Rex-Thinker使用思维链(CoT)推理来处理指代物体检测,将每个决策分解为清晰的步骤:规划、行动和总结。
为了让Rex-Thinker像人类一样推理,研究人员采用了结构化CoT监督微调和GRPO强化学习优化两阶段训练策略,具体可查阅原论文。
三、延伸阅读:图像结合推理的视觉框架
来自港科大开源Pixel-Reasoner模型,将思维链推理从纯文本升级至像素+文本双空间协作,让AI真正学会边看、边点、边推理。先从图像中提取关键线索,再通过纯文本形式一步步推理出答案。AI只会“看图说话”?港科大开源推理模型,让模型真正看图“动手推理”!
来自CUHK的研究团队提出了VisionReasoner,将视觉感知任务从任务导向转变为认知导向,其是首个统一的视觉感知开源框架,能够在一个共享模型中处理多种视觉感知任务,包括检测、分割、计数和视觉问答等。模型架构包括一个推理模块和一个分割模块。推理模块负责处理图像并定位目标物体,而分割模块则在需要时生成分割掩码。检测、分割、计数、问答全拿下?对标Qwen2. 5-VL!
你觉得“视觉推理检测模型”会取代传统专用检测器吗?开源代码及论文如下:
欢迎加入《AI未来星球》,一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程(AI商机->项目签约->算法开发->产品开发->实施运维)中的各方面经验和踩过的坑。
你可以获得什么?
1、大白之前花费10W+购买,AI行业各场景私有数据集下载,星球内倾情分享;2、AI行业研发、产品、商业落地问题咨询(目前AI公司创业中),都可获高质量解答,有效期一年,无限次提问,有问必答。3、定期邀请AI行业各类嘉宾分享,创业/商业等方面的经验!
帮助你解决遇到的实际问题,升职加薪!
大家一起加油!