Agentic RAG-R1：让大模型从「检索助手」跃升为「思考+搜索王者」！

发布日期: 2025-05-03

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

AgenticRAG-R1是由北京大学研发的一项开源研究项目，旨在推动语言模型在自主检索与推理能力方面的能力边界。该项目通过引入强化学习策略（GRPO），构建了一个可自我规划、检索、推理与总结的智能体式RAG系统。
核心亮点
1.AgenticRAG架构：融合检索增强生成（RAG）与AgenticAI机制，模型不仅生成答案，还能“决定如何生成答案”。
2.强化学习优化（GRPO）：借助GeneralizedRelevancePolicyOptimization，让模型学会更合理地选择检索和推理步骤。
3.多轮推理与回溯能力：支持计划、回溯、总结等多种agent行为，实现人类式的问题解决流程。
4.LoRA与量化支持：低成本微调与高效推理并存，轻松部署大模型至生产环境。
5.丰富奖励机制：引入格式、准确性、RAG表现等多个维度的奖励，训练出更“懂业务”的智能体。
Github项目地址：https ://github.com/jiangxinke/Agentic-RAG-R1
“模型自主、工具自选、推理自洽”——AgenticRAG-R1用强化学习把RAG带进智能体时代。
•事实性：RAG通过外部检索解决“幻觉”问题，但仍依赖人工提示来决定何时检索。
•上下文爆炸：检索结果越多，拼接进上下文越长，反而稀释关键信息。
•多跳推理：复杂任务需要“查-思-查-思”循环，仅一次检索难以覆盖。
AgenticRAG-R1让模型在每一步“思考”时都能自主决定：
1.是否检索？——省掉无关调用，提高效率
2.检索什么？——人类不再手写复杂prompt
3.如何引用？——自动将证据融入推理链
-🔍检索增强生成(RAG)：在生成过程中即时从外部知识库检索信息，兼具语言模型的创造力与实时、可信的事实。
-🤖AgenticAI智能体：让模型自主决定何时检索、检索什么，以及如何把检索证据编织进推理链，真正做到“会思考、会行动”。
目前支持如下动作：
#
动作
说明
状态
1
🤔Reasoning（推理）
展开思考、提出假设
✅
2
🔄Backtrack（回溯）
回到上一节点，修正思路
✅
3
📝Summary（总结）
汇总已有证据，压缩上下文
✅
4
🛠️ToolObservation（工具调用）
访问Wiki/文档/知识图谱等
✅
5
✅Conclusion（结论）
输出最终答案
✅
采样多条推理-检索轨迹，对“高相关、高准确、高格式”路径赋正奖励
、收敛快，避免RLHF里的RewardHacking
10 %参数可训练，int-4存储
，多实验迭代无压力
权重&优化器拆分到CPU/NVMe
轻松起飞
支持文本、代码、数据库、RESTAPI
让模型在“真实工作流”里落地
奖励公式:(
其中r_rag由RAGAS自动评测检索片段是否被有效引用。
数据集：MedQA（中英双语） | JudgeModel：Qwen-2.5-72B
微调前
39%
84%
微调前+检索
56%
79%
•跨语言：中/英两份测试集均显著提升
•复杂推理：多跳问题正确率提升8 %以上
•工具调用成功率：>95%，日志可追溯
Q1：必须用32B模型吗？
A1：不需要！我们默认用Qwen-2.5-7B-Instruct；你也可以换成Llama-3-8B/Baichuan-13B，只需改配置。
Q2：RL训练很复杂吗？
A2：脚本参数与常规LoRA差不多，多加一份奖励配置即可。CPU显存不足？Zero-3+Offload轻松搞定。
“模型自主，检索在手；深度推理，靠谱出口！”
“让LLM会自己找资料，再也不用Ctrl+C/Ctrl+V！”
推荐阅读
•动手设计AIAgents：（编排、记忆、插件、workflow、协作）
•DeepSeekR1+Agent的下半场
•单智能体（Agent）：企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解（1.2万字，20+文献，27张图）
欢迎关注我的公众号“PaperAgent”，每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。