多模态RAG框架LAYRA及Deepresearch、ReZero强化搜索优化实现思路


多模态RAG框架LAYRA及Deepresearch、ReZero强化搜索优化实现思路

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

今天是2025年4月19日,星期六,北京,晴。
文档多模态RAG进展,关于多模态文档RAG,我们在前两天已经讲过了,关于起必要性和一些实现方式。大多数RAG系统依赖OCR或基于文本的解析来处理文档,但这些方法存在❌失去文档布局排版(列、表格、层级结构崩溃)、❌无法处理非文本视觉元素(图表、图形、图片等)、❌OCR分割导致语义断裂等问题;
多模态RAG,通过使用纯视觉嵌入,可以缓解这一问题,保留✅布局结构(标题、列表、段落);✅表格完整性(行、列、合并单元格);✅视觉元素(图形、图表、手写);✅布局与内容之间的一致性。所以,这块,可以看一个简单的demo开源框架,看看实现方式。这是本文的第一件事。
另外,我们来看看关于AI搜索以及DeepResearch的两个案例,读起来都有借鉴意义,深入代码去看。
抓住根本问题,做根因,专题化,体系化,会有更多深度思考。大家一起加油。
LAYRA框架(https ://github.com/liweiphys/layra),其支持PDF批量上传和解析功能,提供基于视觉的检索增强生成(RAG)系统,支持查询文档内容,在功能上,首个测试版本现已开放试用,仅支持PDF文档。

可以看看起实现的技术流程,核心两张图:
一个是查询流程,查询经过嵌入→向量检索→答案生成:
一个是上传与索引流程,PDF被解析为图像,并通过ColQwen2.5进行视觉嵌入,元数据和文件存储在适当的数据库中。
在应用场景上,项目认为,可以用在智能文档问答(合同、发票、扫描版报告);政策/法律文件(结构复杂的PDF文档解析);工业手册(不便于OCR处理的版式/表格/流程图);可视化分析(基于图表数据的趋势挖掘);
当然,也可以看看项目远景,也是符合大家的一些真实需求。例如:知识库PDF批量上传和解析功能、基于RAG的对话系统,支持查询和回答、OpenAI兼容接口接入(ollama、sglang、vllm)、代码架构和模块化优化,以实现更好的可扩展性、支持更多视觉或多模态大模型、扩展文档格式支持(如Word、PPT、Excel)、集成智能Agent,用于多跳推理、接入知识图谱体系、支持DockerCompose快速部署、开放知识库API接口。
这些都是我们在看这个项目时能学到的点。
一个是Deepresearch的工作,LlamaResearcher(https ://github.com/AstraBert/llama-4-researcher),实现流程如下:
请求首先由一个名为“llama-3-8b-guard”的Guardi模型进行安全评估,该模型由Groq提供。如果提示内容安全,将继续将其路由到ResearcherAgent,这是一个功能调用代理。
ResearcherAgent首先将查询扩展为三个子查询,这些子查询将用于网络搜索。通过LinkUp(https ://linkup.so/)对每个子查询进行深度网络搜索。从网络检索到的信息将与原始用户提示进行相关性评估。
一旦代理收集了所有信息,它将撰写最终的报告并将其返回给用户。

实现思路为:通过强化学习训练,让模型在搜索中不断优化查询。与多个合成搜索引擎交互,每个引擎都具有独特的检索机制,以优化查询并持续搜索,直到找到准确的答案。使用的是GRPO算法,https ://github.com/menloresearch/ReZero/blob/main/train_grpo.py

1、ttps://github.com/liweiphys/layra
2、https ://github.com/AstraBert/llama-4-researcher
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录