一篇80页多模态RAG技术最新综述：MRAG3.0

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

多模态检索增强型生成（MultimodalRetrieval-AugmentedGeneration,MRAG）通过整合多模态数据（如文本、图像和视频）来增强大型语言模型（LLMs）的能力，显著提高了生成的质量并减少幻觉，系统地回顾了MRAG进展、技术组件等。
一、MRAG的发展
三个阶段：MRAG1.0、MRAG2.0和MRAG3.0，每个阶段都引入了新的技术和架构。
MRAG1.0
MRAG1.0的架构，通常被称为“伪MRAG”，与传统RAG非常相似，由三个模块组成：文档解析与索引、检索和生成。尽管整体流程基本保持不变，但关键区别在于文档解析阶段。在这个阶段，使用专门的模型将不同模态的数据转换为特定模态的描述。这些描述随后与文本数据一起存储，以便在后续阶段使用。
文档解析与索引：将多模态文档转换为文本和图像描述，存储在向量数据库中。
检索：使用嵌入模型检索与查询最相关的文本和图像描述。
生成：将检索到的信息与用户查询结合，生成回答。
MRAG2.0
MRAG2.0的架构通过文档解析和索引保留了多模态数据，同时引入了多模态检索和多模态大型语言模型（MLLMs）用于答案生成，真正进入了多模态时代。
多模态检索：直接检索多模态数据，而不仅仅是文本描述。
多模态生成：利用多模态LLMs（MLLMs）生成答案，减少信息转换过程中的损失。
MRAG3.0
MRAG3.0架构在文档解析和索引阶段整合了文档截图，以减少信息丢失。在输入阶段，它引入了一个多模态搜索规划模块，统一了视觉问答（VQA）和检索增强型生成（RAG）任务，同时优化了用户查询的精确性。在输出阶段，多模态检索增强型组合模块通过将纯文本转换为多模态格式来增强答案生成，从而丰富了信息传递。

文档解析与索引：保留文档页面截图，减少信息丢失。
多模态检索增强型生成：在检索和生成过程中引入多模态数据，支持多模态输出。
二、MRAG的关键技术组件
详细介绍了多模态检索增强型生成（MRAG）系统的关键技术组件，能够有效整合多模态数据（如文本、图像、视频等）并提升生成任务性能的核心。
多模态文档解析与索引是MRAG系统的基础，负责处理和组织多模态知识库中的文档数据，以便后续的检索和生成模块能够高效利用这些数据。文档可以是结构化、半结构化或非结构化的，解析方法也因文档类型而异。
文档类型分类：
非结构化多模态数据：如包含文本、图像、视频和音频的文档，缺乏固定格式或模式。
半结构化多模态数据：如PDF、HTML、XML等，具有一定的组织结构，但不如关系数据库那样严格。
结构化多模态数据：如关系数据库和知识图谱，数据按照预定义的格式排列。
解析方法：
提取式方法（Extraction-based）：从文档中提取多模态信息，然后进行解析和结构化存储。例如，使用OCR技术从图像中提取文本，或从HTML文档中提取结构化数据。
表示式方法（Representation-based）：将整个文档作为一个整体进行处理，生成文档的表示，而不是显式地提取多模态信息。这种方法可以减少信息丢失，但可能需要更多的计算资源。
多模态搜索规划模块负责根据用户查询制定检索策略，以确定如何从多模态知识库中检索相关信息。这一模块需要考虑查询的多模态特性，并动态调整检索策略以适应不同的查询需求。
固定规划（FixedPlanning）：采用预定义的检索流程，不根据查询的具体内容进行调整。例如，始终使用文本检索或图像检索，而不考虑查询的实际需求。
自适应规划（AdaptivePlanning）：根据查询的特性和上下文动态调整检索策略。例如，对于需要多模态信息的查询，可以同时检索文本和图像，或者根据查询的复杂性调整检索的深度和广度。
多模态检索模块负责从大规模知识库中检索与用户查询最相关的多模态文档。检索模块需要处理不同模态数据之间的语义对齐问题，并生成高质量的检索结果。
检索架构：
单/双流结构（Single/Dual-streamStructure）：单流结构将多模态数据融合到一个统一的语义空间中，而双流结构则分别处理不同模态的数据，通过对比学习对齐特征。
生成式结构（GenerativeStructure）：使用生成模型直接生成与查询相关的文档标识符（DocIDs），然后通过索引和检索这些标识符来获取相关文档。
检索方法：
稀疏检索（SparseRetrieval）：基于词袋模型或TF-IDF等技术，通过关键词匹配来检索文档。
密集检索（DenseRetrieval）：使用深度学习模型生成文档和查询的密集向量表示，通过计算向量相似度来检索文档。
多模态生成模块负责根据检索到的多模态信息生成最终的答案。这一模块需要处理多模态输入，并生成包含多种模态数据的输出。
多模态输入（MultimodalInput）：生成模块需要能够处理来自不同模态的输入，如文本、图像、视频等，并将这些输入融合到一个统一的表示中。
多模态输出（MultimodalOutput）：生成模块不仅需要生成文本答案，还需要能够生成与文本相关的图像、视频等多模态内容，以增强答案的表达力和信息量。
ASurveyonMultimodalRetrieval-AugmentedGenerationhttps ://arxiv.org/pdf/2504.08748
推荐阅读
•动手设计AIAgents：（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•单智能体（Agent）：企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。