多模态RAG框架LAYRA及Deepresearch、ReZero强化搜索优化实现思路

发布日期: 2025-04-19

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年4月19日，星期六，北京，晴。
文档多模态RAG进展，关于多模态文档RAG，我们在前两天已经讲过了，关于起必要性和一些实现方式。大多数RAG系统依赖OCR或基于文本的解析来处理文档，但这些方法存在❌失去文档布局排版（列、表格、层级结构崩溃）、❌无法处理非文本视觉元素（图表、图形、图片等）、❌OCR分割导致语义断裂等问题；
多模态RAG，通过使用纯视觉嵌入，可以缓解这一问题，保留✅布局结构（标题、列表、段落）；✅表格完整性（行、列、合并单元格）；✅视觉元素（图形、图表、手写）；✅布局与内容之间的一致性。所以，这块，可以看一个简单的demo开源框架，看看实现方式。这是本文的第一件事。
另外，我们来看看关于AI搜索以及DeepResearch的两个案例，读起来都有借鉴意义，深入代码去看。
抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。
LAYRA框架(https ://github.com/liweiphys/layra)，其支持PDF批量上传和解析功能，提供基于视觉的检索增强生成(RAG)系统，支持查询文档内容，在功能上，首个测试版本现已开放试用，仅支持PDF文档。

可以看看起实现的技术流程，核心两张图：
一个是查询流程，查询经过嵌入→向量检索→答案生成：
一个是上传与索引流程，PDF被解析为图像，并通过ColQwen2.5进行视觉嵌入，元数据和文件存储在适当的数据库中。
在应用场景上，项目认为，可以用在智能文档问答(合同、发票、扫描版报告)；政策/法律文件(结构复杂的PDF文档解析)；工业手册(不便于OCR处理的版式/表格/流程图)；可视化分析(基于图表数据的趋势挖掘);
当然，也可以看看项目远景，也是符合大家的一些真实需求。例如：知识库PDF批量上传和解析功能、基于RAG的对话系统，支持查询和回答、OpenAI兼容接口接入（ollama、sglang、vllm）、代码架构和模块化优化，以实现更好的可扩展性、支持更多视觉或多模态大模型、扩展文档格式支持（如Word、PPT、Excel）、集成智能Agent，用于多跳推理、接入知识图谱体系、支持DockerCompose快速部署、开放知识库API接口。
这些都是我们在看这个项目时能学到的点。
一个是Deepresearch的工作，LlamaResearcher(https ://github.com/AstraBert/llama-4-researcher)，实现流程如下：
请求首先由一个名为“llama-3-8b-guard”的Guardi模型进行安全评估，该模型由Groq提供。如果提示内容安全，将继续将其路由到ResearcherAgent，这是一个功能调用代理。
ResearcherAgent首先将查询扩展为三个子查询，这些子查询将用于网络搜索。通过LinkUp(https ://linkup.so/)对每个子查询进行深度网络搜索。从网络检索到的信息将与原始用户提示进行相关性评估。
一旦代理收集了所有信息，它将撰写最终的报告并将其返回给用户。

实现思路为：通过强化学习训练，让模型在搜索中不断优化查询。与多个合成搜索引擎交互，每个引擎都具有独特的检索机制，以优化查询并持续搜索，直到找到准确的答案。使用的是GRPO算法，https ://github.com/menloresearch/ReZero/blob/main/train_grpo.py

1、ttps://github.com/liweiphys/layra
2、https ://github.com/AstraBert/llama-4-researcher
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。

ZejunCao

https://zejuncao.github.io/2025/04/19/1000001174-2648419891-1/