大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?(一)


大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?(一)

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

技术总结专栏
作者:喜欢卷卷的瓦力
多模态大模型中模态对齐数据构建的难点及解决方案。
多模态大模型相对于LLM的训练难度更高一些,其中很关键的部分在于模态的对齐。
多模态对齐需要把各种模态映射或对齐到token空间中,让图像、语音等多模态信息抽象为token表征,从而利用现有的LLM的技术实现多模态领域的思维链和涌现。
那么本系列开始总结MLLM中多模态对齐的难点以及现有的解决方法,下面是本系列想要包含的内容。
1. 模态对齐的难点总结
模态对齐数据构建
跨模态差异影响融合效果
模态对齐评估效率比较低
2. 现有难点的解决方案
本篇主要来讲述模态对齐的部分。
多模态模型架构与训练方法
在开始前先简单回顾一下多模态模型架构与训练方法~
目前MLLM常见的输入模态包括图像、视频、音频,另外IMU(惯性测量单元,InertialMeasurementUnit)传感器数据以及脑波等生理信号数据也有在尝试接入。
下图是一个可以参考的多模态大模型基本架构。
典型的多模态大模型基本架构(来源:腾讯AILab)
目前多模态大模型的训练方法和架构上比较趋同,多采用两段式训练方法,按照一定次序分别训练视觉编码器和语言模型,但最后阶段都会训练到跨模态映射(Q-former或者MLP)的参数。
两段式训练方法(来源:阿里巴巴达摩院)
具体来说:
第一阶段,通过模态对齐预训练,将映射层和模态编码器(Modality的输出优化映射到联合LLM嵌入空间,进行各模态的对齐。
第二阶段,通过多模态指令调整,模型将系统指令/文本查询与输入多模态上下文相关联。CLIPViT-L等就是比较典型的特定模态编码器。
可以看到模态对齐确实是非常重要的部分。
数据模态对齐的难点和解决方案
1. 安全性难点
多模态数据对齐需要文本指令、上下文响应,以及非文本模态(如图像/音频)的强关联标注。此外目前新兴的生物信号、传感器信号等数据在建模时也需要考虑,以及标注过程中还需要考虑COT的部分。
目前数据收集过程中需要着重考虑内容相关性和安全性,需要人工介入的环节非常多,因此成本极高且难以规模化。
2. 解决方案简述
可以通过标注或合成的方式构建一部分引导样本,引导生成内容与生成风格,并以目标嵌入的方式替代真实的多模态数据,在MLLM的前向传播过程中引导生成相关引导目标嵌入来进行优化。
3. 具体示例说明
上面的话可能有些抽象,这里推荐一篇ACL2025北航彭浩团队提出的合成嵌入技术SEA(SyntheticEmbeddingaugmentedsafetyAlignment)框架辅助大家理解。
SEA在模态编码器表示空间中优化合成嵌入,替代真实多模态数据;通过梯度更新生成目标嵌入,比如对训练结果有害的相关向量,与文本指令结合构建训练数据集。
主要分为3个阶段,下面简单的进行表述。
1)数据准备
构建一个文本安全对齐数据集
其中x表示有害指令,y是道德响应,对于每个pair构建一个辅助数据集,用于内容控制和风格控制。
内容控制的样本示例
指令:请简要描述图像中的活动(产品)
目标真值:响应前缀+答案
风格控制的样本示例
指令:图像的风格是什么?
目标真值:响应前缀+风格描述(风格描述要从预定义的风格集合中随机采样)
2)嵌入优化
对于每个pair,准备一个空白图像(或空白视频、静音音频)的嵌入E0,并将其作为可训练的嵌入进行优化。
优化目标是给定E0,以及内容控制和风格控制的指令,最大化MLLM生成内容控制和风格控制目标样本的概率。优化过程如下:
3)安全性对齐
将优化后的嵌入Ei与文本数据集DT结合,构建多模态数据集
对于每个x,添加一个前缀,如“图像显示一个活动(产品)。请理解它并回答以下问题。”生成。保留DT中的响应。
在安全性对齐训练中,忽略模态编码器M(⋅),修改MLLM的前向传播过程为
使其适应现有的安全性对齐训练策略。
个人认为这种方法在实践中还是比较实用,目前在图像这个模态中应用的会更多一些;未来积累的这里具备引导性质的Embedding库本身就具备很大的价值。
大佬们有更多见解的话,可以加微信一起多多讨论。
参考文献:


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录