KAG-Thinker：「结构化」思考新范式，支持逻辑严谨的大模型复杂推理

发布日期: 2025-07-08

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

近日，蚂蚁集团知识引擎团队协同浙江大学、同济大学正式发布了其在结构化推理领域的最新成果——KAG-Thinker模型，该模型是KAG框架的重要迭代升级，聚焦于为通用或专业领域复杂推理任务构建稳定、可解释的思考范式。
2025年以来，OpenAI推出的DeepResearch展示了大模型在复杂推理任务中多轮检索、规划推理的强大能力。随后，产学界涌现了较多以模型为中心(Model-Centric)的方法，比如Search-R1、ReSearch等。它们的核心思路是，通过强化学习让模型自己“学会”如何检索和利用外部知识，从而让小模型也能像专家一样“思考”。然而，这些基于自然语言的推理方法就像让模型“自由发挥”，推理不严谨、过程不稳定等问题依然突出。而人类专家解决复杂问题时，往往采用结构化的思考方法，把原始问题拆解成多个可独立验证的小问题，并依次求解。受此启发，研究团队提出了KAG-Thinker，为模型的思考过程建立一套清晰、分层的“脚手架”，从而提升复杂任务中推理过程的逻辑性与稳定性。
技术报告：https ://arxiv. org/abs/2506. 17728
Github：https ://github. com/OpenSPG/KAG-Thinker
Huggingface:https ://huggingface. co/OpenSPG/KAG-Thinker-en-7b-instruct
该模型延续了KAG框架LogicalForm自然语言与逻辑函数双语义表示机制，以更好地利用结构化知识；并通过广度拆分与深度求解相结合的方式，提升问题求解的严谨性；同时引入以知识点对齐为中心的知识边界判定机制，以充分利用大模型参数化知识与外部形式化知识，并借助内容抗噪模块降低检索信息噪声，增强检索内容的可信度。
视频1KAG-Thinker与KAG框架集成，「结构化思考」引导的「深度推理」问答产品示例
最终，研究团队将上述策略集成于一个支持多轮迭代与深度推理的统一架构中，通过监督微调方法训练出KAG-Thinker7B通用模型。
实验结果显示，在7个单跳和多跳推理数据集上，其性能相较使用强化学习Search-R1、ZeroSearch、ReSearch等SOTA深度搜索方法平均提升了4. 1%。与KAG框架集成后在多跳推理任务上超越HippoRAGV2、PIKE-RAG等In-ContextLearning（以Qwen2. 5-72B为基模）方法。此外，模型也在医疗问答任务中验证了其在专业领域中的有效性。其他专业领域的精细化定制，可以参考其在医疗问答上的应用及表现。
图1KAG-Thinker语料合成和模型训练过程概览
模型方法
模型的架构如下图所示。模型的核心内容包括：
图2复杂问题求解概览图
广度拆分+深度求解：应对复杂决策任务
复杂多跳问题通常需拆分为多个简单子问题，以更高效地利用外部知识库进行求解，KAG-Thinker提出了一种「广度拆分+深度求解」的方法（详见图2）：
广度拆分：将原始问题分解为若干原子问题，各子问题间保持逻辑依赖关系，确保拆分的准确性。每个原子问题由一个LogicalForm算子表示。每个LogicalForm具备双重表示形式——自然语言描述（Step）与逻辑表达式（Action），二者语义一致。
深度求解：针对需要检索(Retrieval)的子问题，进行深入求解，以获取充足的外部知识保障答案准确。在检索前，模型会先执行知识边界判定：若判断当前大模型自身知识已足够回答该子问题，则跳过检索；否则继续深度求解。
知识边界判定：充分利用LLM参数化知识
为充分利用大模型的参数化知识、减少不必要的检索任务，KAG-Thinker以知识点（如实体、事件）为中心定义Retrieval子任务，并通过SPO三元组限定检索粒度，以此为基础判断大模型与外部知识库的边界。
知识边界判定任务是一个无监督过程：首先让大模型直接作答子问题，再由其判断该答案是否为真实答案。此过程生成两个标签：
自然语言输出的判断结果（True/False）；
答案首次出现时对应token的概率，若低于设定阈值则标记为False，否则为True。
仅当两个标签均为True时，才认为大模型自身知识足以回答该子问题，无需额外检索，可直接采用其生成的答案。
图3知识边界判定
检索内容抗噪：提升检索内容的可信度
对于必须检索的子问题，Thinker需要判断当前检索结果是否能求解出对应子问题。然而，不同检索器检索的内容参差不齐，尤其是网页检索得到的内容。
为了更好的分析检索结果，检索抗噪模块会分析每篇检索回来的文章与当前子问题的关系，去掉一些无关内容，再从剩余内容从中提取一些核心信息，作为直接给出子问题的答案还是继续进行深度检索的依据。
LogicalForm求解器
在广度拆分和深度求解时，Thinker沿用KAG框架中定义的4种LogicalForm求解器。每种LogicalForm算子的定义如图4所示。Retrieval主要解决检索类的问题，Deduce和Math主要解决推理分析类问题，Output主要用于答案汇总。
图44种LogicalForm算子的定义
实验结果
单跳和多跳问答
为了评估模型的效果，研究团队选了7个通用的单跳和多跳推理数据集，并使用相同的检索器(E5-base-v2)，Baseline选择了最新的ReSearch、Search-R1、ZeroSearch和StepSearch等。并沿用这些Baseline方法的评价指标(EM)。为了使用相同的检索器，只使用LogicalForm表示中的Step中的纯自然语言的内容。整体实验效果如表1所示。
与无检索基线相比，Thinker模型的平均性能比NaiveGeneration和CoT分别高出27. 1%和34. 6%。
与检索增强方法相比，Thinker模型的平均性能比Search-o1、IRCoT和NaiveRAG分别高出24. 6%、22. 6%和14. 8%。
与基于强化学习的方法相比，Thinker模型比SOTA模型ReSearch高出4. 1%。
具体而言，在单跳数据集中平均提升了4. 5%，在多跳数据集中平均提升了3. 9%。主要原因是，知识点粒度的检索任务拆解降低了检索的复杂性。
表1不同模型(基座模型Qwen2. 5-7B-Instruct)在不同数据集上的EM性能
KAG框架升级
KAGV0. 8升级了知识库的能力。扩展了私域知识库（含结构化、非结构化数据）、公网知识库两种模式，支持通过MCP协议引入LBS、WebSearch等公网数据源。此外，升级了私域知识库索引管理的能力，内置Outline、Summary、KnowledgeUnit、AtomicQuery、Chunk、Table等多种基础索引类型，支持开发者自定义索引&产品端联动的能力(如视频2所示)。
用户可根据场景特点选择合适的索引类型，在构建成本&业务效果之间取得平衡。在本次0. 8的发版中，KAG全面拥抱MCP，提供接入公网MCP服务及在agent流程中集成KAG推理问答（基于MCP协议）的能力。
视频2可配置化的知识索引构建能力
KAG框架的应用
KAG框架V0. 8版本为Thinker模型应用提供支持，融入KAG框架后的Thinker模型，Math、Deduce都使用框架中的求解器进行求解，再用Thinker模型进行答案汇总，可以看到KAG-Thinker7B的平均EM和F1性能相比于Thinker模型平均提升3. 0%，3. 8%。这也说明KAG框架能更好的帮助Thinker模型进行求解。
表2不同模型在自建检索库上的性能
同时，针对KAG框架问题拆解不稳定的现象，也做了问题广度拆解的稳定性测试，将同一个问题，拆解两次，如果两次结果相同，则分数为1，否则为0。

图5不同温度参数下不同模型稳定性测试
KAG-V0. 8withThinker在三个数据集上的平均性能要优于HippoRAGV2和PIKE-RAG，详细的实验设置参考KAG-V0. 8releasenotes。

这种问题Thinker模型拆分不稳定，主要的原因有两种，第一，LLM对复杂的纯自然语言问题拆分存在不一致，第二，7B模型的泛化能力有限。为了解决这些问题，研究团队表示将来会从结构化数据中合成问题拆分样本，保证模型拆分的一致性。
表3不同框架在多跳推理上的性能表现
医疗领域的应用
为了验证该框架在专业领域的能力，研究团队在医疗领域做了一系列的改造，训练出了KAG-Med-Thinker。实验结果如表4所示，在DeepSeek-R1-Distill-Qwen-14B上，与已有的多轮规划和检索增强模型IRCoT和ReAct相比，KAG-Med-Thinker分别取得了3. 95%和4. 41%的显著性能提升。同时，它还比NaiveRAG自适应检索模型高出3. 8%。
表4、不同模型在MedQA上的准确性
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com

ZejunCao

https://zejuncao.github.io/2025/07/08/2650978336-2650978336-2-1751957655/