GraphRAG是否总是有效？9大代表方案在GraphRAG-Bench的多维度对比

发布日期: 2025-06-08

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年6月8日，星期六，北京，晴
我们继续回到GraphRAG的话题，从现有典型的9个GraphRAG方案回顾、GraphRAG方案效果对比Benchmark、GraphRAG能否提升所有类型问题的表现三个话题来看，挺好的一个总结。
先看看当前九种GraphRAG方案
1、RAPTOR

主要思想是递归构建树形文本索引，通过分层聚类与摘要实现多粒度检索。技术亮点在于自底向上递归聚类文本块，生成多层级抽象摘要（叶节点=原文，上层=概括），检索时从树中提取不同抽象层的内容，增强长文档理解。
2、LightRAG
lightrag:Simpleandfastretrieval-augmentedgeneration，https ://arxiv. org/abs/2410. 05779
核心是使用LLM为每个实体节点和关系边生成文本键值对，索引键是用于高效检索的词或短语，值是总结相关信息的文本段落，在检索准确性和效率方面比GraphRAG现有方法有显著提高。
3、GraphRAG

主要思想是用知识图谱结构组织文本索引，支持全局语义理解,构建实体知识图谱，预生成社区摘要（实体群组的概括），检索时融合相关社区摘要，再生成最终答案。
4、G-Retriever

主要思想是针对文本属性图的问答，将RAG与图结构结合。用图神经网络（GNN）学习文本节点表示，增强语义理解。检索时建模为带权斯坦纳树问题，高效定位相关子图。
5、HippoRAG

主要思想是受海马体记忆机制启发，设计高效长期记忆框架。模仿大脑索引理论：LLM（新皮层）+KG（海马体）协同记忆，用PageRank算法优化知识检索路径。
6、GFM-RAG
Gfm-rag:Graphfoundationmodelforretrievalaugmentedgeneration，https ://arxiv. org/abs/2502. 01113
主要思想是训练图基础模型（GFM）统一图检索增强，预训练GNN模型（8M参数）跨60个知识图谱，无需微调即可迁移。建模查询-知识复杂关系，提升多源知识融合能力。
7、DALK

主要思想是LLM与KG动态协同增强，专注阿尔茨海默病领域。LLM构建领域KG，从科学文献抽取AD相关知识，并进行粗到细检索，自感知知识选择+上下文增强推理。
8、KGP

9、ToG

亮点在于LLM⊗KG范式，LLM作为代理探索KG实体关系链，路径可追溯，支持知识纠偏（专家反馈）。
目前对GraphRAG模型的评估主要依赖于传统的问答数据集，在问题和评估指标方面的局限性，无法全面评估GraphRAG模型所带来的推理能力提升，所以可以搞个专门的benchmark。

其中涉及到的几种问题类型的定义如下：
从数据的构建方式上，从20本PDF格式的核心教材中提取准确内容，应用LayoutLMv3进行多模态文档布局分析，将提取的内容组织成层次化的教材树结构，最终将教材元数据（例如，章节标题、小节划分和页码范围）映射到一个四级层次结构中：书名->章节->小节（子章节）->知识内容单元。
先看看不同Graphrag的效果对比，从图构建、知识检索两个角度进行对比。
1、图构建的对比
从三个方面评估图构建：1)效率：构建完全图所需的时间。2)成本：图构建过程中消耗的token数量。3)组织性：构建图中非孤立结点的比例。
当前主流的图构建方法可分为四类，对应的结论如下：
1)树结构Tree：RAPTOR采用此结构，其中每个叶结点代表一个文本块。通过利用大语言模型生成摘要并应用聚类方法，迭代创建父结点，形成层次化的树结构。产生的token数量最少，因为它仅调用LLMs进行摘要生成，但由于迭代聚类过程，所需时间最长；
2)段落图PassageGraph：KGP采用此结构，将每个文本块表示为一个结点，并通过实体链接工具建立边。段落图的token成本次优，仅调用LLMs对实体或关系进行摘要，其时间消耗第二长，主要归因于耗时的实体链接过程。段落图的非孤立结点比率最低，表明实体链接工具未能有效在大多数实体对之间建立边。
3)知识图谱KnowledgeGraph：G-Retriever、HippoRAG、GFM-RAG和DALK使用此结构，借助开放信息提取（OpenIE）工具从文本块中抽取实体和关系，构建知识图谱。知识图谱的token使用量适中，需要LLMs从语料库中提取实体并从实体生成三元组，但由于在获取三元组后快速构建知识图谱，因此实现了最短的时间消耗；**知识图谱表现最佳，其非孤立结点比率保持在约90%**。
4)丰富知识图谱RichKnowledgeGraph：GraphRAG和LightRAG采用此结构，通过添加额外信息（如为结点或边生成总结性描述）来增强标准知识图谱。其消耗的token最多，因为它在标准知识图谱的基础上通过LLMs为实体和关系生成额外的描述，导致时间成本增加。图中非孤立结点的比例次优，虽然它包含了额外信息，但不可避免地引入了更多噪声。
2、知识检索的对比
从两个维度进行评估：1）索引时间，即构建用于检索的向量数据库所需的时间；2）平均检索时间，表示每次查询进行知识检索所消耗的平均时间。
1）索引时间方面
GFM-RAG的索引时间最短，它并未构建传统的向量数据库来存储实体，而是在图构建过程中仅存储与问题对应的实体；
在使用向量数据库的方法中，KGP、RAPTOR和DALK由于存储信息最少，成本较低；ToG、G-Retriever和LightRAG的成本适中，因为关系存储本身耗时；
GraphRAG通过额外存储社区报告进一步增加了索引时间。
HippoRAG的索引时间最长，归因于其额外构建了实体关系和关系块映射。
2）平均检索时间方面
RAPTOR速度最快，其树形结构能够快速定位信息。GFM-RAG和HippoRAG紧随其后，分别利用GNN和PageRank算法进行检索；
G-retriever采用了奖赏收集斯坦纳森林算法，而LightRAG依赖于基于关系的检索，两者都引入了额外的延迟。
GraphRAG需要利用社区信息进行检索，因此耗时较长；
KGP、ToG和DALK由于在检索过程中依赖LLM调用，产生了较大的时间成本。
3、准确性的评估
在准确性方面的对比也很有意思：
DALK和G-Retriever降低了LLM的性能；它们过度依赖结构信息而牺牲语义内容，在生成过程中引入了过多的噪声，损害了LLM的判断准确率；
LightRAG、ToG和KGP实现了轻微的性能提升，表明其检索到的内容对生成任务提供了有限的帮助；
相比之下，GFM-RAG、GraphRAG和HippoRAG通过有效整合图结构信息与块级语义，显著提升了LLM的性能：GFM-RAG利用大规模预训练获得了一个强大的基础模型，GraphRAG通过基于社区的信息优化了检索，而HippoRAG则通过PageRank算法提高了检索效率；
表现最佳的方法是RAPTOR，它通过迭代聚类构建树结构，这一设计与教科书数据的自然层次组织相契合，从而实现了高效的相关信息检索。
大多数GraphRAG方法在生成准确率上优于传统的RAG基准方法如BM-25和TF-IDF，凸显了基于图形的架构在提升生成准确率方面的实用性。
1、多项选择题准确率下降
大模型（LLMs）通过在大规模语料库上进行广泛训练，内化了大量知识，这使得它们通常能够在多项选择任务中正确选择答案。
然而，GraphRAG基于检索的增强可能会引入冗余或与问题上下文关联不紧密的信息。这种检索噪声可能会干扰模型的决策能力，最终降低其在多项选择题上的准确率。
2、判断题准确率提升
判断题需要对事实或逻辑陈述进行二元判断。对于某些事实，大模型可能存在知识盲点或知识不完整，从而导致回答错误。
通过检索相关的事实证据，GraphRAG帮助模型在回答之前验证陈述。这些补充信息提高了模型在判断题上的准确率。
3、开放式问题准确性提升
开放式问题允许进行广泛的、详细的回答，这对于仅依赖内部知识的大模型来说可能是一个挑战。
GraphRAG通过提供来自外部语料库的额外上下文和事实来缓解这一挑战。检索到的信息丰富了模型的回答，提高了主题细节和表达力，并通过将答案基于明确的证据来减少幻觉现象的发生。
4、填空题准确性下降
填空题需要精确理解上下文才能正确预测缺失的词语。GraphRAG检索到的语料库往往无法精确匹配上下文，引入的噪声会降低模型在填空题上的表现。
5、多项选择题准确性下降
多选题要求从一组选项中选择多个正确答案，并且涉及对复杂选项组合的推理；如果GraphRAG的检索遗漏了相关答案选项或包含无关细节，可能会使模型感到困惑。
因此，这些题型对检索精度要求很高；除非GraphRAG的检索高度准确，否则其益处可能有限。
1、https ://arxiv. org/pdf/2506. 02404
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。