【深度学习】CVPR2025|LLMDet：在大语言模型监督下学习强大的开放词汇目标检测器

发布日期: 2025-06-09

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文信息
提出新训练目标与方法：论文提出LLMDet，通过结合标准定位损失和描述生成损失训练开放词汇检测器。利用大语言模型（LLM）为图像生成详细的图像级长描述和区域级短短语，让检测器从详细描述中获取更多信息，构建丰富的视觉语言表示，提升开放词汇能力。
构建新数据集：收集并构建了GroundingCap-1M数据集，每个样本包含图像、短定位文本、注释边界框和详细图像级长描述。
验证模型间互利关系：证明了改进后的LLMDet可以作为强大的视觉基础模型，与大语言模型结合构建更强的大型多模态模型（LMM）。二者相互协作实现互利共赢，在多个基准测试中展现出卓越的性能提升。
消融实验深入分析：通过一系列消融实验，对LLMDet的主要组件、不同大语言模型、生成描述质量、预训练数据、大语言模型中交叉注意力层以及预训练投影仪等方面进行研究。
近期的开放词汇检测器借助丰富的区域级标注数据取得了不错的性能。在这项工作中，作者表明，通过为每张图像生成图像级详细描述，让开放词汇检测器与大语言模型协同训练，能够进一步提升性能。为实现这一目标，作者首先收集了一个数据集GroundingCap-1M，其中每张图像都配有相关的定位标签和图像级详细描述。利用这个数据集，作者对开放词汇检测器进行微调，训练目标包括标准定位损失和描述生成损失。作者利用大语言模型为每个感兴趣区域生成区域级短描述，为整张图像生成图像级长描述。在大语言模型的监督下，得到的检测器LLMDet明显优于基线模型，具有卓越的开放词汇能力。此外，作者还展示了改进后的LLMDet反过来可以构建更强的大型多模态模型，实现互利共赢。
为了支持在定位损失和描述损失的监督下训练LLMDet，作者将每个训练样本表示为一个四元组，其中是图像，是短定位文本，是一些注释边界框，每个边界框都映射到定位文本中的一个短语，是整幅图像的详细描述。图2展示了一个示例。在收集整幅图像的详细描述时，遵循两个核心原则：第一，描述应包含尽可能多的细节。作者期望描述能够描述图像中的对象类型、纹理、颜色、对象部分、对象动作、精确对象位置和文本，使描述具有丰富的信息。第二，描述应仅包含关于图像的事实细节。过多的想象或推理描述会降低信息密度，甚至阻碍模型学习。详细且信息丰富的描述将有助于高效训练。
为了节省构建成本，作者从现有的带有边界框或详细描述的数据集入手。遵循先前的工作，该数据集从目标检测数据集、定位数据集和图像文本数据集收集而来。
对于目标检测数据集，作者选择了著名的COCO和V3Det数据集。由于COCO在许多多模态指令调优数据集中被广泛使用，作者可以从现有资源中收集其详细描述。具体来说，作者从以详细描述著称的ShareGPT4V中收集了16. 8万个描述，并从主要关注对象关系的ASv2中收集了4. 2万个描述。V3Det是一个包含1. 3万个类别的数据集，它可以极大地扩展检测器的词汇量，并且在许多开放词汇检测器中被广泛使用。V3Det的描述由作者使用Qwen2-VL-72b，并按照图2中的提示生成。遵循GLIP的做法，检测数据集的定位文本是数据集中类名的连接，例如“chair. fork.cup. cow.”。
对于定位数据集，作者选择了广泛使用的GoldG，它包含GQA和Flickr30k。作者发现原始注释中每个图像都有许多短定位文本。为了节省计算资源并增加负样本，作者通过简单连接，将同一图像中没有边界框冲突的一些定位文本合并为一个定位文本。合并后，数据集从76. 9万个样本下采样到43.7万个样本。详细描述同样由作者使用Qwen2-VL-72b生成。
对于图像文本数据集，作者使用了LCS-558k，其描述来自LLaVA-OneVision和ShareGPT4V。为了为该数据集中的图像生成伪边界框，作者首先使用传统语言解析器从描述中解析出名词短语，然后利用MMGroundingDINO（Swin-L）为每个短语生成边界框。丢弃边界框少于三个的图像。定位文本与检测数据集一样，是同一图像中短语的连接。
综上所述，最终的数据集GroundingCap-1M包含112万个样本，总结在表1中。
在数据收集过程中，作者仔细选择提示，并使用能够获取到的最佳模型Qwen2-VL-72b。在训练这个性能卓越的模型时，作者做了大量工作来防止幻觉的产生。然而，数据集中不可避免地会存在一些噪声。因此，作者引入了一些后处理步骤来清理数据集：第一，作者发现，尽管提示描述模型不要描述想象的内容，但模型仍然倾向于输出这类内容，不过会带有一些明显的词，如“indicating”“suggesting”“possibly”。作者直接删除带有推测性词汇的子句。第二，作者还设计了规则来过滤掉无意义的描述，例如“Intheimage,amanamanaman…(repeating)”或“Sorry,Icannotanswerthequestion.”。第三，为了确保描述丰富详细，对于首次生成的描述少于100个标记的图像，作者使用Qwen2-VL-72b重新生成描述。这种双重检查机制确保了数据集的质量。经过后处理，每个描述平均约有115个单词。图2展示了GroundingCap-1M数据集中的一个示例。更多示例见附录。第5. 3节给出了一些定量分析。
将定位任务和其他一些语言任务统一起来，可以用语言知识丰富视觉特征，从而拓宽视觉概念，实现更好的视觉语言对齐。先前的工作主要集中在密集描述上，在这种情况下，语言模型被设计为生成短描述或类名来描述单个感兴趣区域。然而，单个对象的细节、对象之间的关系以及关于前景和背景的更多信息被忽略了，而这些信息可以在单个详细的图像级描述中被描绘出来。在这项工作中，作者表明，在大语言模型的监督下，区域级开放词汇目标检测器也可以从详细的图像级长描述中受益。整体流程如图3所示。
具体来说，作者利用一个大语言模型，基于预训练的基于DETR的开放词汇检测器生成描述。由于检测器和大语言模型是分别预训练的，作者首先按照训练大型多模态模型的常见做法，训练一个投影仪，将检测器的视觉特征映射到大语言模型的输入空间。作者将检测器编码器的p5特征图作为大语言模型的输入，并在语言建模损失的监督下，让大语言模型生成完整的图像描述。在这一步（图3中的步骤1）中，只有投影仪是可训练的。
预对齐之后，检测器、投影仪和大语言模型以端到端的方式进行微调（图3中的步骤2）。除了原始的定位任务（包括词-区域对齐损失和边界框回归损失），作者还引入了两个任务：图像级描述生成和区域级描述生成。细节如图4所示。
在图像级描述生成任务中，语言模型将检测器的特征图作为视觉输入，并输出GroundingCap-1M中注释的相应长详细描述。按照训练大型多模态模型的常见做法，作者以对话格式组织大语言模型的输入数据，包括系统消息、用户输入和答案。用户输入包含检测器的视觉特征和提示，例如“Describetheimageindetail”。答案是来自GroundingCap-1M的描述。大语言模型旨在根据用户输入，在标准语言建模损失的监督下输出答案。由于输出的答案包含各种细节和对图像的全面理解，这些视觉线索应该在视觉特征中被建模，以便大语言模型能够最小化训练损失并正确生成描述。
然而，由于大语言模型在图像级描述生成中将整个特征图作为输入，它很难将图像级描述中的实体映射回整幅图像中的特定区域。例如，在图2中，“dishes”只是图像的一小部分，并且图像中有许多类似盘子的物体。因此，作者进一步引入区域级描述生成任务作为补充，为大语言模型将区域与相应单词进行映射提供先验。在这个任务中，作者从检测器中选择正对象查询，即与标签分配中的真实边界框匹配的查询，并使用大语言模型分别为它们生成相应的定位短语，如图4中的“youngman”“mother”和“dishes”。与图像级生成类似，大语言模型的输入也以对话格式进行格式化，但使用不同的提示来区分不同类型的输入，即“Describetheregioninaphrase”。由于单个对象查询中的视觉特征有限，作者在大语言模型中为对象查询添加了一些交叉注意力层，以便从检测器的特征图中收集必要的信息。注意，图像级生成中的文本标记和视觉标记不通过这些交叉注意力层，并且这些层是从头开始训练的。通过为对象查询输出相应的短语，大语言模型可以将实体精确地映射到特定区域。
LLMDet的整体训练目标是定位损失和生成损失的组合：
其中是区域级描述生成损失。
本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与作者联系，作者将在第一时间回复并处理。