CVPR 2025 | PyramidDrop让推理训练飞起来

发布日期: 2025-04-21

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文题目：PyramidDrop:AcceleratingYourLargeVision-LanguageModelsviaPyramidVisualRedundancyReduction
论文地址：https ://arxiv.org/pdf/2410.17247
代码地址：https ://github.com/Cooperx521/PyramidDrop
通过实证研究发现，在LVLMs的浅层中所有视觉标记都是必要的，而深层中视觉标记的冗余性逐渐增加。这表明在不同深度的网络层中，视觉信息的重要性和冗余性是不同的。
提出了PyramidDrop，一种新的图像标记减少策略。该策略将LVLM划分为几个阶段，在每个阶段末尾部分图像标记，以预定义的比例丢弃。
之前在所有LVLM层中使用固定压缩比率的方法不同，PyramidDrop利用层级冗余性来压缩图像标记，并最终保留重要的视觉集中度。
本文提出了一种名为PyramidDrop的新方法，旨在通过减少视觉冗余来加速大型视觉-语言模型（LVLMs）的训练和推理过程，同时几乎不影响模型性能。该方法基于对LVLMs中视觉标记冗余性的实证研究，发现模型的浅层需要所有视觉标记，而深层中视觉标记的冗余性逐渐增加。基于这一发现，PyramidDrop将LVLM划分为多个阶段，在每个阶段末尾部分图像标记，以预定义的比例进行丢弃，从而在保留浅层所有图像标记以避免信息丢失的同时，随着层的加深逐渐减少标记数量以最大化训练和推理效率。
本图展示了视觉冗余性在不同层级的变化。左侧的图显示了在不同层级中保留不同比例的图像标记对LLaVA-1.5模型在TextVQA任务上的性能影响。可以观察到，模型对浅层的标记删除非常敏感，而深层的图像标记逐渐变得不那么关键。右侧的图展示了浅层和深层中注意力图的可视化，显示了模型在浅层关注大多数图像标记以全局理解图像，而在深层则倾向于关注与指令相关的少数标记。
本图概述了PyramidDrop方法。该图描绘了将LLM的前向传播分为多个阶段，并在每个阶段结束时按预定义的比例丢弃部分图像标记的过程。基于轻量级注意力计算的丢弃操作，时间开销可忽略不计，并且根据此标准，LLM准确地选择与指令相关的图像标记。由于这种有效的冗余减少策略，平均序列长度迅速减少。
本图展示了使用PyramidDrop的LLM在不同阶段保留的图像标记的可视化。图中显示了当用户询问图像中的小物体时，LLM能够基于指令准确识别包含相关信息的区域并提供正确答案。这说明PyramidDrop有效地利用了LLM理解图像的特性。在推理过程中应用的标记删除并没有导致有价值的信息丢失；相反，PyramidDrop逐渐选择图像中的核心块，专注于最重要的区域。
本表格比较了PyramidDrop与其他高效推理策略在不同图像标记数量下的性能。通过保留平均192、128和64个图像标记，PyramidDrop在较低的压缩比率下实现了sota结果，展示了其在较低压缩比率下提供最佳性能的能力。此外，即使在压缩比率增加时，PyramidDrop仍保持了稳健的性能，突出了其强大的弹性。ConicalVisualConcentration的设计在不牺牲性能的情况下最大化了效率。PyramidDrop作为一种仅用于推理的方法，在这里进行了评估。总的来说，展示了PyramidDrop与ToMe、FastV和SparseVLM等其他高效推理策略的对比。通过在不同数量的图像标记下进行比较，PyramidDrop在多个基准测试中展现出了优越的性能，同时实现了更高的FLOPs减少。这表明PyramidDrop在减少计算量的同时，能够有效地保留关键的视觉信息，从而在多模态任务中实现更好的性能。
–END–
关注“学姐带你玩AI”公众号，回复“推理”
领取大模型推理论文合集+开源代码
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷