Agent做多模态RAG方案-MDocAgent及文档解析中的图像前处理问题
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天是2025年7月3日,星期四,北京,雨
先来看多模态RAG进展,关于这块,已经在多模态RAG专题中介绍过很多了。
其中提到最多的,就是ColBERT、ColPali这两类embedding模型,不过,从技术角度上讲,两者存在一定局限性。
例如:
ColBERT和ColPali可以检索到了包含相关信息的页面,但仅检索到页面是不够的,还需要进一步分析页面中的具体内容;
ColBERT仅依赖文本信息,未能准确解析文本中的数值数据,例如,在某些场景下或错误地得出“外国出生的拉丁裔人口更多”的结论;
此外,标准的多模态RAG框架,例如M3DocRAG,虽然结合了文本和图像信息,但由于缺乏对关键信息的细致提取和跨模态整合能力,未能正确回答问题。
因此,针对这个问题,一个很自然的方式,就是召回后,再做一些内容上的过滤,再贴点边,就是跟Agent相结合,所以,就搞个Agent?那么可以怎么玩?看一个工作。
另外,说到文档处理,那么,就可以再看看文档预处理,尤其是一些不规则的非印刷体文档,如何做标准化,这个对RAG也很重要。
1、有哪几个Agent?
2、具体实现步骤是什么?
具体步骤分成5步,如下图所示:
1)文档预处理:使用OCR和PDF解析提取文本,并将每页文档保存为图像,形成文本和视觉表示
2)多模态上下文检索:使用ColBERT和ColPali分别对文本和图像进行检索,获取与问题最相关的文本段和图像页
3)初始分析和关键信息提取:GeneralAgent生成初步答案,CriticalAgent提取关键信息,指导文本及图像细分处理进行分析
4)文本及图像细分处理:TextAgent和ImageAgent分别在各自模态内分析检索到的上下文,生成详细的答案
5)答案合成:SummarizingAgent综合所有智能体的输出,生成最终答案。可以重点看架构选型。
文档解析是当前RAG系统的重点问题,在实际处理过程中,并非总是会遇到标准的印刷体文档,还会存在一些拍照版本的问题,这个如果不做处理,直接送到layout或者ocr,会影响实际效果。
1、具体存在哪些问题?
这类问题常常表现为几何失真、阴影、污渍等多种问题,如下:
所以,经常需要做去畸变(去扭曲消除几何失真,如弯曲和褶皱)、去阴影、外观增强、去模糊和二值化任务,这个其实也叫文档恢复任务。
那么,是否可以将这几个任务放在一起做?
其意义在于提出一个统一了五种文档图像还原任务的通用模型,包括去扭曲、去阴影、外观增强、去模糊和二值化。
其中:
外观增强(也称为照明校正)不限于特定的退化类型,旨在恢复类似于从扫描仪或数字原生PDF文件获得的清晰外观;
去阴影的目的是消除主要由遮挡引起的阴影,以获得无阴影的文档图像;
去扭曲,也称为几何校正,旨在校正受到曲线、折叠、皱褶、透视/仿射变形和其他几何扭曲的文档图像;
1、架构及训练阶段?
架构方面,特征提取网络使用DTPrompt生成器根据指定任务从输入图像中提取先验特征,并将其与输入图像拼接,恢复网络使用Restormer。
核心两个阶段:
1)动态任务特定提示(DTPrompt),根据输入图像的特征提取不同的先验特征,这些特征包括文档分割掩码、二值化结果、梯度图等,这个解决的是特征提取问题。
2)提示融合和恢复网络:将DTPrompt与输入图像沿通道维度拼接,形成新的输入用于恢复网络,选择Restormer作为恢复网络,并对其进行微调,这个解决的是恢复问题。
2、训练数据有哪些?
数据往往更为重要,这块没办法,还是合成方案居多,例如:
去扭曲处理数据包括Doc3D,一个包含100K样本的合成数据集,其中包括几何扭曲的文档图像及相应的反向映射图。
去阴影数据及包含来自FSDSRD的14200张合成图像和来自RDD训练集的4371张真实图像。
外观增强包含来自Doc3DShade数据集的90K张合成图像和来自RealDAE训练集的450张真实世界图像。
去模糊使用文本去模糊数据集(TDD)包含66K训练样本;二值化使用(H)-DIBCO数据集。
3、看下实际效果
看论文中提到的一些实现效果,包括输入、DTSPrompt、DocRes修复结果及真实值的可视化对比,包括去弯曲、去阴影、外观增强、去模糊和二值化。
4、关于文档处理这块更进一步的延伸?
如果要文档处理这块有更深的了解,可以看一个技术总结,包含文档图像处理方法的论文集,包括外观增强、去阴影、去扭曲、去模糊和二值化,可以跟一下一个技术总结项目。
地址在:https ://github. com/ZZZHANG-jx/Recommendations-Document-Image-Processing
1、https ://github. com/aiming-lab/MDocAgent
2、https ://arxiv. org/pdf/2405. 04408
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。