字节跳动提出Pixel-SAIL!单一Transformer实现三大突破，性能不降反升！

发布日期: 2025-04-26

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

最新论文解读系列
论文名：Pixel-SAIL:SingleTransformerForPixel-GroundedUnderstanding
论文链接：https ://arxiv.org/pdf/2504.10465
开源代码：https ://zhang-tao-whu.github.io/project/pixelsail
受大语言模型（LLMs）发展的推动，多模态大语言模型（MLLMs）吸引了大量的研究关注。虽然大多数研究集中在开放式视觉问答任务上，但人们对细粒度像素级理解的兴趣也在不断增加。这使得更广泛的应用成为可能，例如促进精确的区域级编辑和生成，以及实现对指定掩码区域的精确理解。
多模态大语言模型（MLLMs）在细粒度像素级理解任务中取得了显著的性能。然而，所有这些工作都严重依赖额外的组件，如视觉编码器（CLIP）、分割专家模型，导致系统复杂度高，并限制了模型的扩展。在这项工作中，我们的目标是探索一种高度简化的多模态大语言模型，而不引入额外的组件。我们的工作受到了最近关于单一Transformer作为统一视觉-语言模型（SAIL）设计的启发，这些工作在Transformer中联合学习视觉令牌和文本令牌。我们提出了Pixel-SAIL，一种用于逐像素多模态大语言模型任务的单一Transformer模型。具体来说，我们在普通基线模型上提出了三项技术改进。首先，我们设计了一个可学习的上采样模块来细化视觉令牌特征。其次，我们提出了一种新颖的视觉提示注入策略，使单一Transformer能够理解视觉提示输入，并从视觉提示嵌入和视觉令牌的早期融合中受益。第三，我们引入了一种视觉专家蒸馏策略，以有效地增强单一Transformer的细粒度特征提取能力。此外，我们通过人工检查收集了一个全面的像素理解基准数据集（PerBench）。它包括三项任务：详细的目标描述、基于视觉提示的问答和视觉-文本指称分割。在四个指称分割基准数据集、一个视觉提示基准数据集和我们的PerBench上的大量实验表明，我们的Pixel-SAIL以更简单的流程取得了相当甚至更好的结果。
最近，一些无编码器的多模态大语言模型[8,15,16,46]取得了与那些带有额外视觉编码器的模型相当的性能。这些模型在单个Transformer中联合学习视觉和文本特征，架构更为简单。特别是，SOLO使用一个简单的投影层将图像映射为视觉标记，然后将语言标记与之组合作为Transformer的输入。然而，尚未有工作探索将这种新架构应用于细粒度的视觉语言任务（区域字幕、指代表达掩码）。
普通基线。为了填补这一空白，我们首先构建了一个普通的单变压器基线，其灵感来源于之前基于视觉变压器（ViT）的多模态大语言模型（MLLM）[27,72]。我们从一个预训练的无编码器的多模态大语言模型开始。对于分割任务，我们将之前的掩码生成方法应用到单变压器中。首先，我们将视觉令牌最后一个变压器层的隐藏状态重塑为图像特征表示视觉令牌的数量，表示通道大小，和表示图像的高度和宽度，表示下采样步长。然后，将图像特征与预测的分割令牌的隐藏状态进行交叉相乘，以生成分割掩码表示预测的分割令牌的数量，遵循之前的工作。对于视觉提示理解，我们采用基于池化的方法[74]从图像块嵌入中提取对象表示。这些对象嵌入被输入到单变压器中以表示相应的对象。表示视觉提示的数量，表示块大小。对于分割任务，我们采用额外的掩码损失。否则，我们对视觉问答（VQA）任务和视觉提示理解任务采用相同的文本损失。
局限性。普通基线展示了一定程度的像素-文本对齐能力，因为分割令牌和视觉提示令牌是与视觉和语言令牌一起联合学习的。然而，普通基线存在几个显著的缺点：1）由于特征下采样步长较大（16或32），即使使用简单的像素洗牌或双线性插值进行上采样，分割掩码的质量仍然很差。2）单变压器难以理解对象表示的指称目标，因为对象表示是从语义信息较差的图像块嵌入中总结出来的。
鉴于这些重大缺点，与视觉专家模型相比，普通基线在细粒度像素理解任务中的性能显著下降。为了解决这些挑战，我们对基线架构进行了三项关键改进。首先，我们集成了一个可学习的上采样模块，以充分发挥单变压器架构的分割能力。其次，我们开发了一种创新的视觉提示注入机制，有助于有效解释视觉提示输入。我们的方法实现了视觉令牌和视觉提示嵌入的早期融合。最后，我们引入了一种密集特征蒸馏策略，显著提高了模型提取细粒度视觉特征的能力。这些改进在保持普通基线架构简单性的同时，共同解决了其缺点。
可学习的上采样模块。受[35]的启发，我们还引入了一个简单的可学习上采样模型来生成像素级定位所需的高分辨率特征。上采样模块由多个上采样块组成，每个块由一个二维转置卷积和一个深度卷积组成。它有效地将从调整大小的视觉令牌中获得的低分辨率特征上采样到原始分辨率的四分之一。
图2.我们提出的普通基线和像素自注意力交互学习（Pixel-SAIL）的架构。像素自注意力交互学习（Pixel-SAIL）与普通基线一样简单优雅，但性能显著提高。右侧的示例表明，像素自注意力交互学习（Pixel-SAIL）具备进行通用对话和全面像素定位理解的能力。
视觉提示注入。先前的工作通过对来自视觉Transformer（ViT）编码器的视觉标记进行池化操作来总结参考对象的特征。然而，对于无编码器的多模态大语言模型（MLLMs）而言，并不存在这样的视觉标记。因此，固有的语义缺陷阻碍了单一Transformer仅基于从图像块嵌入（其中大多数是低级线索，如边缘）得出的特征总结来精确识别参考对象的能力。
为了克服这一限制，我们提出了一种创新的视觉提示注入机制。我们的方法将多个视觉提示特殊标记集成到大型语言模型的词汇表中。这些标记的文本嵌入用于填充基于掩码的视觉提示，从而创建视觉提示标记。视觉标记在由单一Transformer处理之前，首先会与这些视觉提示标记相加。这种增强使得模型能够通过利用文本指令中的相应特殊标记来准确识别参考对象。
密集特征蒸馏。由于缺乏像SA-1B[26]这样的大规模、高质量分割数据，该方法生成的掩码质量较差，尤其是在对象边界处。然而，直接在大规模分割数据集上进行训练成本高昂，并且会损害原始的指令遵循能力。为了解决这两个问题，我们采用预训练的分割专家模型对单一Transformer进行蒸馏，确保在不损害视觉问答（VQA）能力的前提下优化对象细节。我们通过利用Mask2Former[12]的像素解码器在上采样掩码特征上生成的掩码特征，以及利用SAM2[53]的编码器在低分辨率特征上生成的特征来进行蒸馏。这种简单的蒸馏策略在仅略微增加训练时间的情况下提高了分割质量。
图3.我们的PerBench上的视觉示例。建议以彩色查看并放大。
我们的基准测试：PerBench。我们进一步手动标注了一个名为PerBench（基于像素理解的基准测试）的基准测试。PerBench旨在解决现有基于像素定位的基准测试中缺失的三个方面的问题。
第一个方面是详细的对象描述。先前的工作强调了更详细的图像描述，表明全面的描述能显著提升模型性能。然而，当前的对象描述数据集（如Osprey-724k[74]）和评估基准（如Refcocog）仅提供粗略的对象描述。为了解决这一限制，我们利用最先进（SOTA）的模型InternVL2.5-78B[11]和Qwen2.5VL-72B[2]来生成详细的对象描述。然后，这些详细的对象描述会通过人工审核进行精心筛选和完善，最终得到500条精确、细致的对象描述，作为一个强大的评估基准。METEOR[3]作为详细对象描述任务的评估指标。
第二个方面是以选择题形式评估视觉提示理解能力。虽然字幕生成任务能够准确反映模型的视觉提示理解能力，但进行精确且公平的评估却颇具难度。诸如CIDEr[57]和METEOR[3]等基于规则的指标会受到回复长度、格式以及真实标注质量的影响，而使用模型作为评估器则不可避免地会引入模型偏差。因此，有必要建立一个公平且量化的视觉提示理解基准。受MMBench[43]和MME[20]的启发，我们基于详细的物体描述手动标注了500道选择题，涵盖了对模型理解参考物体外观、属性、用途以及与周围物体关系的考查。多模态大语言模型（MLLMs）需要准确感知参考物体的属性，并具备遵循指令的能力，才能正确选择合适的答案。准确率被选为基于视觉提示的选择题的评估指标。
第三个方面是对视觉提示和文本共同引用的物体进行分割，简称为V-TRES。其目的是测试模型理解用户输入的视觉提示所指示的物体，并根据文本指令分割相关物体的能力。该任务全面评估了多模态大语言模型的像素关联理解能力，要求模型具备精确的视觉提示理解能力、文本推理能力和像素关联技能。我们还手动标注了-TRES样本，并由五位专家标注员进行双重检查。与RefCOCO系列数据集类似，我们选择交并比（cIoU）和广义交并比（gIoU）作为V-TRES任务的评估指标。PerBench的总体得分是上述三项任务归一化得分（0-100）的平均值。
我们的基准可以用于评估逐像素的多模态大语言模型，并为当前研究群体在详细物体理解、联合视觉提示和文本理解方面指出更具挑战性的方向。
数据集引擎。为了充分发挥单一Transformer的潜力，我们遵循以往的研究[16,46]，收集了多样化的像素关联数据，包括分割数据集和视觉提示理解数据集。
对于与分割相关的数据，我们首先使用LISA[27]中使用的Ref-和语义分割数据、GLaMM[51]中使用的Grandf数据集（214k个样本）以及PixelLM[54]中使用的MUSE数据（246k个样本）。我们还使用了近期的Pixel2Cap[69]数据（包含张图像），并将其整理成指称分割格式。最后，我们进一步添加了COCO[37]全景分割数据，并将其结构化如下：“问题：请以实例模式分割类名。答案：{类名}-1[SEG]，…，{类名}-n[SEG]。”
对于视觉提示理解，我们采用了两个公开数据集：Osprey-724k[74]和Pixel2Cap[69]。此外，我们将COCO数据集重新格式化为专门用于查询物体类别的问答结构。为了增强模型进行细粒度物体描述的能力，我们促使InternVL2.5-78B[11]模型从SA-1B[26]图像中生成大约条详细的物体描述。最后，为了保持模型遵循指令的能力，我们还将LLaVA-1.5[40]的665k数据集整合到我们的训练数据中。
训练。我们将上述所有数据结合起来进行联合训练。损失函数由下一个标记预测损失、分割损失和蒸馏损失组成：
其中设置为到2.0，设置为0.5。
实现细节。我们使用两个开源的无编码器多模态大语言模型：SOLO[8]和EVEv2[16]对我们的元架构进行了广泛评估。对于SOLO，参照文献[28]，我们将视觉标记之间的注意力机制从因果注意力修改为全注意力，并在LLaVA-1.5665k数据集上进行有监督的微调。对于SOLO，我们将视觉标记之间的注意力机制从因果注意力修改为全注意力，并分别用Qwen2.5[66]0.5B和替换大语言模型（LLM）。对于EVEv2，我们保留其原始架构和权重，不做任何修改。我们基于修改后的SOLO基线构建了Pixel-SAIL0.5B和3B模型，并基于EVEv2构建了7B模型。在基于SOLO训练Pixel-SAIL时，我们保持输入图像的原始分辨率。对于长边超过1024的图像，我们保持宽高比并将长边调整为1024。在基于EVEv2训练Pixel-SAIL时，为降低训练成本，我们将图像调整为最接近像素的大小，这与原始的设置不同。训练过程在32块A100（80GB）GPU上进行，使用AdamW[44]优化器和余弦衰减学习率调度器。我们将初始学习率设置为，热身比例设置为0.03，批量大小设置为256。和模型的训练时长分别为12小时和24小时。
评估设置。对于视觉提示理解和通用图像问答任务，我们遵循与基础多模态大语言模型（MLLM）相同的设置。在与分割相关的任务中，如果模型未能预测出[SEG]标记，我们会强制其生成一个[SEG]标记，以确保能够生成分割结果。
表1.指称分割基准测试的性能。评估指标为交并比（cIoU）。“ft”表示在特定数据集上进行微调。
指称分割基准测试结果。我们在RefCOCO+[70]、RefCOCOg[70]、RefCOCO[25]和gRefCOCO[39]数据集上，将Pixel-SAIL与其他基于像素的多模态大语言模型以及分割专家模型进行了比较。比较结果如表1所示。Pixel-SAIL0.5B在RefCOCO+、RefCOCOg和RefCOCO的验证集上分别取得了70.8、75.4和77.9的类别交并比（cIoU），在模型规模相当的情况下超越了所有分割专家模型，同时还保留了图像对话能力。与经典的基于SegmentAnythingModel（SAM）的多模态大语言模型竞争对手LISA-7B[27]相比，尽管Pixel-SAIL0.5B的模型规模小得多（0.5B对比7B），但在RefCOCO、RefCOCO+和RefCOCOg上分别高出4.2、7.9和7.8的cIoU。在包含多目标分割的更复杂的gRefCOCO数据集上，Pixel-SAIL0.5B在验证集、测试集A和测试集B上分别比精心设计的GSVA-7B[63]高出6.3、4.8和6.5的cIoU。
当将模型扩展到时，Pixel-SAIL在、RefCOCOg、RefCOCO和gRefCOCO数据集上分别取得了75.7、78.7、80.8和的成绩，超越了所有由视觉专家辅助的更大规模（7B）的多模态大语言模型。Pixel-SAIL-3B甚至超越了当前最优的Sa2VA-4B[72]（该模型使用了强大的InternVL2-4B[10]和SAM2-L[53]），在更具挑战性的RefCOCO+和RefCOCOg数据集上分别取得了1.4和的性能优势。
表2.RefCOCOg数据集上的区域字幕性能。
视觉提示理解基准测试结果。我们在Ref-数据集上评估区域描述性能，结果如表2所示。Pixel-SAIL的训练数据集不包含RefCOCOg区域描述数据集，因此我们直接评估其零样本性能。Pixel-SAIL-0.5B的METEOR分数达到16.0，比OMG-LLaVA7B高出0.7分。当模型规模扩展到3B时，Pixel-SAIL的METEOR分数达到17.6，分别比精心设计的更大模型，如Osprey7B和GLaMM7B高出1.0分和1.4分。
表3.在我们的PerBench上的性能表现。由于缺乏视觉提示理解能力，LISA在所有任务上的得分均为0。
PerBench基准测试结果。我们在我们提出的PerBench上对几个流行的像素关联多模态大语言模型（MLLM）进行了基准测试，结果如表3所示。LISA[27]由于无法理解视觉提示输入，在所有任务中均得0分。Osprey[74]展示了强大的目标描述能力；然而，由于其训练数据中目标描述长度较短以及指令遵循能力受损，它在详细描述任务中仅获得13.4的METEOR分数，在多项选择题任务中准确率仅为12.0%。GLaMM[51]和Sa2VA[72]都展现出全面的提示理解和分割能力，不过GLaMM较弱的指令遵循能力导致其在多项选择题任务中的准确率仅为。Pixel-SAIL-0.5B的总体得分达到38.4，尽管Pixel-SAIL拥有更强大的基础多模态大语言模型和分割专家，但仍与Sa2VA-4B相当。值得注意的是，Pixel-SAIL-3B的总体得分达到42.2，在所有三项任务中均优于Sa2VA-4B。
表4.在视觉问答（VQA）基准测试中的性能。指使用分辨率，这与预训练模型中的分辨率不同。
视觉问答基准测试结果。我们在MME[20]、MM-Bench[43]、SEED[29]和MMStar[7]基准测试中比较了Pixel-SAIL与相应基础多模态大语言模型的视觉问答性能，结果如表4所示。当模型规模为0.5B时，Pixel-SAIL在所有四个基准测试中均比基础多模态大语言模型表现更优，特别是在MMBench上，分数从13.8提高到31.8。然而，当模型规模为3B和7B时，Pixel-SAIL的性能与基础多模态大语言模型相当，这可能受到当前视觉提示和分割数据的数量（少于）和质量的限制。
表5.Pixel-SAIL组件的消融实验。“RC”表示在RefCOCOg数据集上的区域描述。
各组件的有效性。我们对所提出的组件进行了全面的消融实验研究，结果见表5。我们的普通基线模型使用LLaVA-665k和RefCOCO/+/g数据进行训练，在RefCOCO、RefCOCO+和RefCOCOg数据集上的cIoU分别仅达到64.5、57.3和。此外，该基线模型在视觉提示理解任务上完全失败，在区域描述任务上仅获得1.0的METEOR分数。加入可学习的上采样模块后，分割质量显著提高，模型在RefCOCO、RefCOCO+和RefCOCOg上的cIoU分别达到76.2、69.6和73.8。然而，由于目标表示中的语义信息不足，该模型仍然无法有效解释用户输入的视觉提示。当我们通过引入大量的分割数据和视觉提示理解数据来扩大训练数据规模时，模型的分割能力进一步增强。尽管扩大了训练数据规模，但由于目标表示中的语义信息有限，模型在处理视觉提示输入时仍然存在困难。实施我们提出的视觉提示注入机制后，模型在视觉提示理解方面有了显著改进，在区域描述任务上达到了16.1的METEOR分数。有趣的是，我们观察到增强的视觉提示理解能力对指称分割性能有积极影响。最后，加入蒸馏策略进一步提升了模型的详细分割质量。
表6.基础多模态大语言模型（BaseMLLM）的消融实验。训练数据仅包括LLaVA-665k和RefCOCO/+/g
不同多模态大语言模型（MLLMs）的消融实验。为了证明Pixel-SAIL的有效性，我们在不同架构和规模的模型上进行了验证，结果见表6。为了降低训练成本，我们仅使用LLaVA-665k和Ref-数据进行训练，并在指称分割任务上进行评估。当使用我们修改后的0.5BSOLO作为基础多模态大语言模型时，Pixel-SAIL在RefCOCO/+/g上的cIoU分数分别为69.7、62.5和65.3。当将模型规模扩大到3B时，Pixel-SAIL在RefCOCO/+/g上的性能分别提高了3.5、3.9和3.8个cIoU。当使用EVEv2-7B作为基础多模态大语言模型时，尽管视觉令牌之间的注意力从全注意力变为因果注意力，且架构转变为混合专家（MOE）架构，但Pixel-SAIL在Re-上的cIoU分数分别为77.4、70.4和75.2，这表明性能随着模型规模的扩大而持续提升。
表7.训练数据消融实验。“RC”表示RefCOCOg数据集上的区域描述。
数据规模的消融实验。数据在Pixel-SAIL的性能中起着至关重要的作用。如表7所示，我们对训练数据进行了全面的消融实验研究，以评估其影响。仅使用基础数据（包括LLaVA-665k和RefCOCO/+/g数据集）进行训练时，Pixel-SAIL在RefCOCO、RefCOCO+和RefCOCOg上的cIoU分别为69.7、62.5和65.3。扩大与分割相关的数据规模后，Pixel-SAIL在这些数据集上的性能分别显著提高了6.5、7.1和8.5个cIoU。此外，加入视觉提示数据进行混合训练不仅增强了模型的视觉提示理解能力，还使RefCOCO、RefCOCO+和RefCOCOg上的性能分别额外提高了1.2、0.8和1.4个cIoU。
表8.蒸馏策略消融实验。
蒸馏策略的消融实验。蒸馏是一种将知识融入Pixel-SAIL的高效方法。我们对蒸馏策略进行了消融实验，结果如表8所示。我们使用所有分割的平均cIoU作为评估指标。当仅使用Mask2Former[12]来蒸馏高分辨率掩码特征时，Pixel-SAIL在RefCOCO/+/g上的性能提升分别为0.2、0.5和0.3。当使用SAM2[53]来蒸馏低分辨率图像特征时，Pixel-SAIL在上的性能提升分别为0.3、0.4和0.4。当两个教师模型协同使用时，性能提升分别为0.6、0.3和0.5。此外，蒸馏策略引入的额外计算成本极小，对于Pixel-SAIL-0.5B，仅使训练时间增加约。
视觉对比。在图4中，我们展示了Pixel-SAIL在不同任务上的可视化结果。Pixel-SAIL能够灵活地解读视觉提示和文本指令输入，并以文本和分割掩码作为响应。
图4.Pixel-SAIL在多样性任务上的可视化结果。建议以彩色视图并放大查看。从上到下依次是基于视觉提示的目标描述、单/多目标指称分割、视觉-文本指称分割、图像描述与问答，以及基于视觉提示的对话。以点和框形式呈现的视觉提示使用SAM[26]转换为掩码提示。有关更多可视化结果以及与其他多模态大语言模型（MLLMs）的比较，请参阅附录。
图5.图像特征可视化结果。从左到右依次是基础多模态大语言模型（MLLM）的图像特征、Pixel-SAIL的图像特征，以及Pixel-SAIL的掩码特征。
视觉亲和图分析。我们使用主成分分析（PCA）降维算法来可视化视觉特征，结果如图5所示。与基础多模态大语言模型（MLLM）的图像特征（第二列）相比，我们的Pixel-SAIL的图像特征（第三列）更密集且更多样。经过上采样模块后，Pixel-SAIL的掩码特征更密集，且分割边缘更好。有趣的是，Pixel-SAIL的图像特征（更侧重于理解，结合了类别、颜色、位置等因素）与掩码特征（更侧重于感知、类别和实例）表现出不同的特征。如第二行的第三列和第四列所示，左右两侧的汽车在图像特征中的特征表示相对较远，而在掩码特征中则非常接近。
我们探索了用于像素级理解任务的最简单架构。具体而言，我们提出了Pixel-SAIL，它通过三项技术改进（可学习的上采样模块、新的视觉提示编码和分割器特征蒸馏）扩展了当前类似SAIL的多模态大语言模型，以实现细粒度理解。我们的工作首次证明，即使没有额外的视觉专家（视觉编码器、分割模型），单个Transformer在四个公开的指称分割基准测试中仍能取得更强的性能。我们进一步引入了一个更具挑战性的基准测试Perbench，以推动像素级多模态大语言模型社区的发展。
感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术，欢迎一起交流学习💗～