大模型面经——MLLM中模态对齐有哪些难点？有什么解决方法？（一）

发布日期: 2025-06-08

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

技术总结专栏
作者：喜欢卷卷的瓦力
多模态大模型中模态对齐数据构建的难点及解决方案。
多模态大模型相对于LLM的训练难度更高一些，其中很关键的部分在于模态的对齐。
多模态对齐需要把各种模态映射或对齐到token空间中，让图像、语音等多模态信息抽象为token表征，从而利用现有的LLM的技术实现多模态领域的思维链和涌现。
那么本系列开始总结MLLM中多模态对齐的难点以及现有的解决方法，下面是本系列想要包含的内容。
1. 模态对齐的难点总结
模态对齐数据构建
跨模态差异影响融合效果
模态对齐评估效率比较低
2. 现有难点的解决方案
本篇主要来讲述模态对齐的部分。
多模态模型架构与训练方法
在开始前先简单回顾一下多模态模型架构与训练方法~
目前MLLM常见的输入模态包括图像、视频、音频，另外IMU（惯性测量单元，InertialMeasurementUnit）传感器数据以及脑波等生理信号数据也有在尝试接入。
下图是一个可以参考的多模态大模型基本架构。
典型的多模态大模型基本架构（来源：腾讯AILab）
目前多模态大模型的训练方法和架构上比较趋同，多采用两段式训练方法，按照一定次序分别训练视觉编码器和语言模型，但最后阶段都会训练到跨模态映射（Q-former或者MLP）的参数。
两段式训练方法（来源：阿里巴巴达摩院）
具体来说：
第一阶段，通过模态对齐预训练，将映射层和模态编码器（Modality的输出优化映射到联合LLM嵌入空间，进行各模态的对齐。
第二阶段，通过多模态指令调整，模型将系统指令/文本查询与输入多模态上下文相关联。CLIPViT-L等就是比较典型的特定模态编码器。
可以看到模态对齐确实是非常重要的部分。
数据模态对齐的难点和解决方案
1. 安全性难点
多模态数据对齐需要文本指令、上下文响应，以及非文本模态（如图像/音频）的强关联标注。此外目前新兴的生物信号、传感器信号等数据在建模时也需要考虑，以及标注过程中还需要考虑COT的部分。
目前数据收集过程中需要着重考虑内容相关性和安全性，需要人工介入的环节非常多，因此成本极高且难以规模化。
2. 解决方案简述
可以通过标注或合成的方式构建一部分引导样本，引导生成内容与生成风格，并以目标嵌入的方式替代真实的多模态数据，在MLLM的前向传播过程中引导生成相关引导目标嵌入来进行优化。
3. 具体示例说明
上面的话可能有些抽象，这里推荐一篇ACL2025北航彭浩团队提出的合成嵌入技术SEA（SyntheticEmbeddingaugmentedsafetyAlignment）框架辅助大家理解。
SEA在模态编码器表示空间中优化合成嵌入，替代真实多模态数据；通过梯度更新生成目标嵌入，比如对训练结果有害的相关向量，与文本指令结合构建训练数据集。
主要分为3个阶段，下面简单的进行表述。
1）数据准备
构建一个文本安全对齐数据集
其中x表示有害指令，y是道德响应，对于每个pair构建一个辅助数据集，用于内容控制和风格控制。
内容控制的样本示例
指令：请简要描述图像中的活动（产品）
目标真值：响应前缀+答案
风格控制的样本示例
指令：图像的风格是什么？
目标真值：响应前缀+风格描述（风格描述要从预定义的风格集合中随机采样）
2）嵌入优化
对于每个pair，准备一个空白图像（或空白视频、静音音频）的嵌入E0，并将其作为可训练的嵌入进行优化。
优化目标是给定E0，以及内容控制和风格控制的指令，最大化MLLM生成内容控制和风格控制目标样本的概率。优化过程如下：
3）安全性对齐
将优化后的嵌入Ei与文本数据集DT结合，构建多模态数据集
对于每个x，添加一个前缀，如“图像显示一个活动（产品）。请理解它并回答以下问题。”生成。保留DT中的响应。
在安全性对齐训练中，忽略模态编码器M(⋅)，修改MLLM的前向传播过程为
使其适应现有的安全性对齐训练策略。
个人认为这种方法在实践中还是比较实用，目前在图像这个模态中应用的会更多一些；未来积累的这里具备引导性质的Embedding库本身就具备很大的价值。
大佬们有更多见解的话，可以加微信一起多多讨论。
参考文献：