一文读懂多模态大模型微调,武大发布最全综述!


一文读懂多模态大模型微调,武大发布最全综述!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

多模态大语言模型(MLLMs)展现出卓越的通用能力,在视觉与语言推理任务中表现出色,并具备一定的跨任务泛化能力。但是,其在某些下游领域的应用能力有限。通过在下游数据上进行微调,MLLM能够灵活适配多种任务,从视觉问答到医学诊断等领域,展现出惊人的潜力。这是否意味着MLLM的下游微调已发展到足以应对不同领域的复杂挑战,并有效解决模型迁移与泛化问题的程度?不同类型的微调方法在应对这些挑战时各有哪些优势和不足?
近期,武汉大学研究团队发布了多模态大模型下游任务微调的最全综述与基准测试框架《KeepingYourselfisImportantinDownstreamTuningMultimodalLargeLanguageModel》。该研究系统性地梳理了MLLM微调的三大策略:选择性微调(SelectiveTuning),通过调整部分参数减少遗忘;附加式微调(AdditiveTuning),通过添加适配模块而不改动原模型结构;以及重新参数化微调(ReparameterizationTuning),利用LoRA等低秩适配方法提升效率。此外,本文构建了标准化评测框架,系统性分析了不同类型微调方法的适用场景,并通过实验对比,在医学、遥感、科学问答等多个任务上进行测试,揭示不同场景下的最佳微调策略。
Ø论文地址:https ://arxiv.org/abs/2503.04543
Ø项目主页:https ://github.com/WenkeHuang/Awesome-MLLM-Tuning
任务专家化与开放世界稳定:MLLM下游微调双重挑战
本文指出,尽管MLLM具备强大的泛化能力,在广泛应用场景中表现优异,但在专业领域或私人数据集上的适应性仍受限。现有研究主要关注通过下游任务微调以提升性能,却忽视了下游数据与预训练数据的分布差异而导致的泛化能力下降的问题。基于此,我们提出任务专家化挑战,即MLLM在异质数据上表现受限,影响特定任务的应用效果。此外,微调MLLM时,通常侧重于优化特定任务,而忽略了一般知识遗忘的问题。下游任务学习可能导致预训练知识的“灾难性遗忘”,从而削弱模型的整体性能和适应性。为此,我们提出开放世界稳定挑战,即微调后MLLM可能丧失预训练阶段的知识,影响其泛化能力和开放环境下的稳定性。图1对这两个关键挑战进行了概述。
为了应对上述关键挑战,近年来学者们不断研究各种先进的调优策略,但是目前没有统一的分类范式。本文将MLLM调参策略大致可分为选择性调参、加法调参和重新参数调整,详细阐述了每种调参范式的核心思想、关键技术及其适用场景,并针对任务专家化与泛化能力稳定性等核心问题,归纳不同方法的有效性及局限性。
基准测试与实验分析
除了对现有研究进行归纳,本文还设计了基准测试(benchmark)来评估不同微调方法的效果。我们将数据集划分为两类:预训练(可见)数据集和下游调整(不可见)数据集,以衡量MLLM的泛化能力和专业化能力。预训练数据集包含训练过程中使用的数据集、以及衡量通用性能的数据集,包括OKVQA、GQA、TextVQA、OCRVQA、COCO-Cap和MME,其中前五个用于评估模型在视觉问答(VQA)和字幕生成任务上的源域能力,MME用于评估多样化世界知识的保留情况。下游调整数据集涵盖多个领域,包括科学问答、图标推理、目标指代、图像-文本匹配和遥感VQA等任务,能够全面测试MLLM在不同领域的适应能力。
通过对不同的模型架构和微调方法进行系统测试,结果表明各类方法在任务专门化和泛化稳定性之间存在显著差异。全层微调(Full-ST)尽管在下游任务中表现优异,但易导致过拟合,削弱泛化能力;低秩适配(LoRA)可在保留预训练知识的同时适应特定任务,但对数据分布变化较大的任务效果受限。选择性微调(SelectiveTuning),尤其是调整顶层(Top-ST)或末层(Last-ST),在平衡任务专门化与泛化稳定性方面表现出色,能有效缓解灾难性遗忘。此外,低秩适配方法相比全层微调更能减少泛化能力下降,而视觉投影模块(VisionProjector)的调整有助于适应视觉域迁移,但在视觉特征相似的任务中,冻结该模块通常更优。因此,不同微调方法各有优劣,需根据具体任务需求选择最适策略,以优化模型的适应性与稳定性。
图4.
未来研究趋势
作者认为,当前多模态大语言模型微调仍面临诸多开放问题,其中最核心的挑战是任务专门化与泛化能力的平衡——如何在增强特定任务表现的同时,避免模型遗忘原本掌握的通用知识。此外,计算资源的优化也是一个关键问题,现有微调方法在大规模模型上的计算开销较高,限制了其实际应用。另一个重要方向是跨模态适配,即如何让模型更好地理解和融合不同模态的数据,如视觉与文本之间的深度交互。未来的研究可以从自适应选择性微调入手,开发更智能的调优策略,以动态选择最关键的参数进行优化;同时,基于知识蒸馏的稳定微调有望减少模型遗忘问题,提高泛化能力。此外,新型架构设计,如更紧密融合视觉与语言的模型,也可能成为提升MLLM任务适应性和稳定性的突破点。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录