Agentic RAG-R1:让大模型从「检索助手」跃升为「思考+搜索王者」!


Agentic RAG-R1:让大模型从「检索助手」跃升为「思考+搜索王者」!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AgenticRAG-R1是由北京大学研发的一项开源研究项目,旨在推动语言模型在自主检索与推理能力方面的能力边界。该项目通过引入强化学习策略(GRPO),构建了一个可自我规划、检索、推理与总结的智能体式RAG系统。
核心亮点
1.AgenticRAG架构:融合检索增强生成(RAG)与AgenticAI机制,模型不仅生成答案,还能“决定如何生成答案”。
2.强化学习优化(GRPO):借助GeneralizedRelevancePolicyOptimization,让模型学会更合理地选择检索和推理步骤。
3.多轮推理与回溯能力:支持计划、回溯、总结等多种agent行为,实现人类式的问题解决流程。
4.LoRA与量化支持:低成本微调与高效推理并存,轻松部署大模型至生产环境。
5.丰富奖励机制:引入格式、准确性、RAG表现等多个维度的奖励,训练出更“懂业务”的智能体。
Github项目地址:https ://github.com/jiangxinke/Agentic-RAG-R1
“模型自主、工具自选、推理自洽”——AgenticRAG-R1用强化学习把RAG带进智能体时代。
•事实性:RAG通过外部检索解决“幻觉”问题,但仍依赖人工提示来决定何时检索。
•上下文爆炸:检索结果越多,拼接进上下文越长,反而稀释关键信息。
•多跳推理:复杂任务需要“查-思-查-思”循环,仅一次检索难以覆盖。
AgenticRAG-R1让模型在每一步“思考”时都能自主决定:
1.是否检索?——省掉无关调用,提高效率
2.检索什么?——人类不再手写复杂prompt
3.如何引用?——自动将证据融入推理链
-🔍检索增强生成(RAG):在生成过程中即时从外部知识库检索信息,兼具语言模型的创造力与实时、可信的事实。
-🤖AgenticAI智能体:让模型自主决定何时检索、检索什么,以及如何把检索证据编织进推理链,真正做到“会思考、会行动”。
目前支持如下动作:
#
动作
说明
状态
1
🤔Reasoning(推理)
展开思考、提出假设

2
🔄Backtrack(回溯)
回到上一节点,修正思路

3
📝Summary(总结)
汇总已有证据,压缩上下文

4
🛠️ToolObservation(工具调用)
访问Wiki/文档/知识图谱等

5
✅Conclusion(结论)
输出最终答案

采样多条推理-检索轨迹,对“高相关、高准确、高格式”路径赋正奖励
、收敛快,避免RLHF里的RewardHacking
10 %参数可训练,int-4存储
,多实验迭代无压力
权重&优化器拆分到CPU/NVMe
轻松起飞
支持文本、代码、数据库、RESTAPI
让模型在“真实工作流”里落地
奖励公式:(
其中r_rag由RAGAS自动评测检索片段是否被有效引用。
数据集:MedQA(中英双语) | JudgeModel:Qwen-2.5-72B
微调前
39%
84%
微调前+检索
56%
79%
•跨语言:中/英两份测试集均显著提升
•复杂推理:多跳问题正确率提升8 %以上
•工具调用成功率:>95%,日志可追溯
Q1:必须用32B模型吗?
A1:不需要!我们默认用Qwen-2.5-7B-Instruct;你也可以换成Llama-3-8B/Baichuan-13B,只需改配置。
Q2:RL训练很复杂吗?
A2:脚本参数与常规LoRA差不多,多加一份奖励配置即可。CPU显存不足?Zero-3+Offload轻松搞定。
“模型自主,检索在手;深度推理,靠谱出口!”
“让LLM会自己找资料,再也不用Ctrl+C/Ctrl+V!”
推荐阅读
•动手设计AIAgents:(编排、记忆、插件、workflow、协作)
•DeepSeekR1+Agent的下半场
•单智能体(Agent):企业员工AI助理
•Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录