ICLR 2025 | GRAM：多模态对齐新突破

发布日期: 2025-04-14

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

论文题目：GRAMIANMULTIMODALREPRESENTATIONLEARNINGANDALIGNMENT
论文地址：https ://arxiv.org/pdf/2412.11959
代码地址：https ://ispamm.github.io/GRAM/
与传统的基于余弦相似度的成对对齐方法不同，GRAM（GramianRepresentationAlignmentMeasure）通过计算由模态向量张成的k维平行六面体的体积来衡量模态之间的对齐程度。这种方法直接在模态嵌入所在的高维空间中操作，能够同时对齐n个模态，而不仅仅是成对对齐，从而克服了现有方法在扩展到多个模态时的局限性。
为了进一步提升多模态模型在高维嵌入空间中的对齐效果，作者提出了基于GRAM的对比损失函数。该损失函数利用GRAM的体积计算来引导多模态模型构建统一且对齐的嵌入空间，从而在下游任务中取得了新的最佳性能。
GRAM不仅是一种对齐度量，还可以作为量化多模态模型性能的指标。作者通过实验验证了GRAM与多模态模型在下游任务中的性能之间存在强相关性（Pearson相关系数为0.923），即模态嵌入向量张成的平行六面体体积越小，模型在下游任务中的性能越好。
本文提出了一种名为GramianRepresentationAlignmentMeasure(GRAM)的多模态表示学习和对齐方法，其核心思想是通过计算模态向量张成的k维平行六面体的体积来衡量模态之间的对齐程度。具体来说，GRAM在模态嵌入所在的高维空间中直接对齐n个模态，通过最小化Gramian体积来确保所有模态之间的几何对齐。
本图展示了GRAM的直观理解：左侧展示了语义对齐的多模态数据的嵌入向量构建了一个体积较小的平行六面体。右侧展示了模态之间未对齐时，形成的平行六面体体积较大。GRAM的核心思想是通过计算模态向量张成的平行六面体的体积来衡量模态之间的对齐程度。体积越小，表示模态向量越接近，即对齐程度越高。
本图展示了基于GRAM的模型架构。来自每个模态的类别标记参与构建k维平行六面体，其体积指示模态的语义对齐程度。所有标记随后参与多模态编码器以增强预测。该模型使用提出的Gramian多模态对比损失LD2A和LDAM进行预训练。该图详细展示了GRAM方法的模型架构，解释了如何通过计算体积来衡量和优化模态之间的对齐，并通过多模态编码器进一步提升模型性能。
本图证明了GRAM不仅是一种对齐度量，还可以作为量化多模态模型性能的指标。模态嵌入向量张成的平行六面体体积越小，模型在下游任务中的性能越好。
本表格列出了多种方法在MSR-VTT、DiDeMo、ActivityNet和VATEX这四个数据集上的Recallat1（R@1）指标表现。R@1表示在检索任务中，正确结果出现在前1名的概率，是衡量检索性能的一个重要指标。从表格中可以看出，不同的方法在各个数据集上的表现有所不同。总之，本表提供了不同多模态模型在文本到视频和视频到文本检索任务中的性能对比，反映了各种方法在处理多模态数据时的检索能力，同时也展示了多模态融合对提升检索性能的重要性。
–END–
关注“学姐带你玩AI”公众号，回复“多模态对齐”
领取多模态对齐高分idea合集+开源代码
往期精彩阅读
👉kaggle比赛baseline合集
👉经典论文推荐合集
👉人工智能必读书籍
👉本专科硕博学习经验
评论区留言参与讨论嗷