CVPR 2025 | PyramidDrop让推理训练飞起来
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
论文题目:PyramidDrop:AcceleratingYourLargeVision-LanguageModelsviaPyramidVisualRedundancyReduction
论文地址:https ://arxiv.org/pdf/2410.17247
代码地址:https ://github.com/Cooperx521/PyramidDrop
通过实证研究发现,在LVLMs的浅层中所有视觉标记都是必要的,而深层中视觉标记的冗余性逐渐增加。这表明在不同深度的网络层中,视觉信息的重要性和冗余性是不同的。
提出了PyramidDrop,一种新的图像标记减少策略。该策略将LVLM划分为几个阶段,在每个阶段末尾部分图像标记,以预定义的比例丢弃。
之前在所有LVLM层中使用固定压缩比率的方法不同,PyramidDrop利用层级冗余性来压缩图像标记,并最终保留重要的视觉集中度。
本文提出了一种名为PyramidDrop的新方法,旨在通过减少视觉冗余来加速大型视觉-语言模型(LVLMs)的训练和推理过程,同时几乎不影响模型性能。该方法基于对LVLMs中视觉标记冗余性的实证研究,发现模型的浅层需要所有视觉标记,而深层中视觉标记的冗余性逐渐增加。基于这一发现,PyramidDrop将LVLM划分为多个阶段,在每个阶段末尾部分图像标记,以预定义的比例进行丢弃,从而在保留浅层所有图像标记以避免信息丢失的同时,随着层的加深逐渐减少标记数量以最大化训练和推理效率。
本图展示了视觉冗余性在不同层级的变化。左侧的图显示了在不同层级中保留不同比例的图像标记对LLaVA-1.5模型在TextVQA任务上的性能影响。可以观察到,模型对浅层的标记删除非常敏感,而深层的图像标记逐渐变得不那么关键。右侧的图展示了浅层和深层中注意力图的可视化,显示了模型在浅层关注大多数图像标记以全局理解图像,而在深层则倾向于关注与指令相关的少数标记。
本图概述了PyramidDrop方法。该图描绘了将LLM的前向传播分为多个阶段,并在每个阶段结束时按预定义的比例丢弃部分图像标记的过程。基于轻量级注意力计算的丢弃操作,时间开销可忽略不计,并且根据此标准,LLM准确地选择与指令相关的图像标记。由于这种有效的冗余减少策略,平均序列长度迅速减少。
本图展示了使用PyramidDrop的LLM在不同阶段保留的图像标记的可视化。图中显示了当用户询问图像中的小物体时,LLM能够基于指令准确识别包含相关信息的区域并提供正确答案。这说明PyramidDrop有效地利用了LLM理解图像的特性。在推理过程中应用的标记删除并没有导致有价值的信息丢失;相反,PyramidDrop逐渐选择图像中的核心块,专注于最重要的区域。
本表格比较了PyramidDrop与其他高效推理策略在不同图像标记数量下的性能。通过保留平均192、128和64个图像标记,PyramidDrop在较低的压缩比率下实现了sota结果,展示了其在较低压缩比率下提供最佳性能的能力。此外,即使在压缩比率增加时,PyramidDrop仍保持了稳健的性能,突出了其强大的弹性。ConicalVisualConcentration的设计在不牺牲性能的情况下最大化了效率。PyramidDrop作为一种仅用于推理的方法,在这里进行了评估。总的来说,展示了PyramidDrop与ToMe、FastV和SparseVLM等其他高效推理策略的对比。通过在不同数量的图像标记下进行比较,PyramidDrop在多个基准测试中展现出了优越的性能,同时实现了更高的FLOPs减少。这表明PyramidDrop在减少计算量的同时,能够有效地保留关键的视觉信息,从而在多模态任务中实现更好的性能。
–END–
关注“学姐带你玩AI”公众号,回复“推理”
领取大模型推理论文合集+开源代码
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷