GraphRAG是否总是有效?9大代表方案在GraphRAG-Bench的多维度对比
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天是2025年6月8日,星期六,北京,晴
我们继续回到GraphRAG的话题,从现有典型的9个GraphRAG方案回顾、GraphRAG方案效果对比Benchmark、GraphRAG能否提升所有类型问题的表现三个话题来看,挺好的一个总结。
先看看当前九种GraphRAG方案
1、RAPTOR
主要思想是递归构建树形文本索引,通过分层聚类与摘要实现多粒度检索。技术亮点在于自底向上递归聚类文本块,生成多层级抽象摘要(叶节点=原文,上层=概括),检索时从树中提取不同抽象层的内容,增强长文档理解。
2、LightRAG
lightrag:Simpleandfastretrieval-augmentedgeneration,https ://arxiv. org/abs/2410. 05779
核心是使用LLM为每个实体节点和关系边生成文本键值对,索引键是用于高效检索的词或短语,值是总结相关信息的文本段落,在检索准确性和效率方面比GraphRAG现有方法有显著提高。
3、GraphRAG
主要思想是用知识图谱结构组织文本索引,支持全局语义理解,构建实体知识图谱,预生成社区摘要(实体群组的概括),检索时融合相关社区摘要,再生成最终答案。
4、G-Retriever
主要思想是针对文本属性图的问答,将RAG与图结构结合。用图神经网络(GNN)学习文本节点表示,增强语义理解。检索时建模为带权斯坦纳树问题,高效定位相关子图。
5、HippoRAG
主要思想是受海马体记忆机制启发,设计高效长期记忆框架。模仿大脑索引理论:LLM(新皮层)+KG(海马体)协同记忆,用PageRank算法优化知识检索路径。
6、GFM-RAG
Gfm-rag:Graphfoundationmodelforretrievalaugmentedgeneration,https ://arxiv. org/abs/2502. 01113
主要思想是训练图基础模型(GFM)统一图检索增强,预训练GNN模型(8M参数)跨60个知识图谱,无需微调即可迁移。建模查询-知识复杂关系,提升多源知识融合能力。
7、DALK
主要思想是LLM与KG动态协同增强,专注阿尔茨海默病领域。LLM构建领域KG,从科学文献抽取AD相关知识,并进行粗到细检索,自感知知识选择+上下文增强推理。
8、KGP
9、ToG
亮点在于LLM⊗KG范式,LLM作为代理探索KG实体关系链,路径可追溯,支持知识纠偏(专家反馈)。
目前对GraphRAG模型的评估主要依赖于传统的问答数据集,在问题和评估指标方面的局限性,无法全面评估GraphRAG模型所带来的推理能力提升,所以可以搞个专门的benchmark。
其中涉及到的几种问题类型的定义如下:
从数据的构建方式上,从20本PDF格式的核心教材中提取准确内容,应用LayoutLMv3进行多模态文档布局分析,将提取的内容组织成层次化的教材树结构,最终将教材元数据(例如,章节标题、小节划分和页码范围)映射到一个四级层次结构中:书名->章节->小节(子章节)->知识内容单元。
先看看不同Graphrag的效果对比,从图构建、知识检索两个角度进行对比。
1、图构建的对比
从三个方面评估图构建:1)效率:构建完全图所需的时间。2)成本:图构建过程中消耗的token数量。3)组织性:构建图中非孤立结点的比例。
当前主流的图构建方法可分为四类,对应的结论如下:
1)树结构Tree:RAPTOR采用此结构,其中每个叶结点代表一个文本块。通过利用大语言模型生成摘要并应用聚类方法,迭代创建父结点,形成层次化的树结构。产生的token数量最少,因为它仅调用LLMs进行摘要生成,但由于迭代聚类过程,所需时间最长;
2)段落图PassageGraph:KGP采用此结构,将每个文本块表示为一个结点,并通过实体链接工具建立边。段落图的token成本次优,仅调用LLMs对实体或关系进行摘要,其时间消耗第二长,主要归因于耗时的实体链接过程。段落图的非孤立结点比率最低,表明实体链接工具未能有效在大多数实体对之间建立边。
3)知识图谱KnowledgeGraph:G-Retriever、HippoRAG、GFM-RAG和DALK使用此结构,借助开放信息提取(OpenIE)工具从文本块中抽取实体和关系,构建知识图谱。知识图谱的token使用量适中,需要LLMs从语料库中提取实体并从实体生成三元组,但由于在获取三元组后快速构建知识图谱,因此实现了最短的时间消耗;**知识图谱表现最佳,其非孤立结点比率保持在约90%**。
4)丰富知识图谱RichKnowledgeGraph:GraphRAG和LightRAG采用此结构,通过添加额外信息(如为结点或边生成总结性描述)来增强标准知识图谱。其消耗的token最多,因为它在标准知识图谱的基础上通过LLMs为实体和关系生成额外的描述,导致时间成本增加。图中非孤立结点的比例次优,虽然它包含了额外信息,但不可避免地引入了更多噪声。
2、知识检索的对比
从两个维度进行评估:1)索引时间,即构建用于检索的向量数据库所需的时间;2)平均检索时间,表示每次查询进行知识检索所消耗的平均时间。
1)索引时间方面
GFM-RAG的索引时间最短,它并未构建传统的向量数据库来存储实体,而是在图构建过程中仅存储与问题对应的实体;
在使用向量数据库的方法中,KGP、RAPTOR和DALK由于存储信息最少,成本较低;ToG、G-Retriever和LightRAG的成本适中,因为关系存储本身耗时;
GraphRAG通过额外存储社区报告进一步增加了索引时间。
HippoRAG的索引时间最长,归因于其额外构建了实体关系和关系块映射。
2)平均检索时间方面
RAPTOR速度最快,其树形结构能够快速定位信息。GFM-RAG和HippoRAG紧随其后,分别利用GNN和PageRank算法进行检索;
G-retriever采用了奖赏收集斯坦纳森林算法,而LightRAG依赖于基于关系的检索,两者都引入了额外的延迟。
GraphRAG需要利用社区信息进行检索,因此耗时较长;
KGP、ToG和DALK由于在检索过程中依赖LLM调用,产生了较大的时间成本。
3、准确性的评估
在准确性方面的对比也很有意思:
DALK和G-Retriever降低了LLM的性能;它们过度依赖结构信息而牺牲语义内容,在生成过程中引入了过多的噪声,损害了LLM的判断准确率;
LightRAG、ToG和KGP实现了轻微的性能提升,表明其检索到的内容对生成任务提供了有限的帮助;
相比之下,GFM-RAG、GraphRAG和HippoRAG通过有效整合图结构信息与块级语义,显著提升了LLM的性能:GFM-RAG利用大规模预训练获得了一个强大的基础模型,GraphRAG通过基于社区的信息优化了检索,而HippoRAG则通过PageRank算法提高了检索效率;
表现最佳的方法是RAPTOR,它通过迭代聚类构建树结构,这一设计与教科书数据的自然层次组织相契合,从而实现了高效的相关信息检索。
大多数GraphRAG方法在生成准确率上优于传统的RAG基准方法如BM-25和TF-IDF,凸显了基于图形的架构在提升生成准确率方面的实用性。
1、多项选择题准确率下降
大模型(LLMs)通过在大规模语料库上进行广泛训练,内化了大量知识,这使得它们通常能够在多项选择任务中正确选择答案。
然而,GraphRAG基于检索的增强可能会引入冗余或与问题上下文关联不紧密的信息。这种检索噪声可能会干扰模型的决策能力,最终降低其在多项选择题上的准确率。
2、判断题准确率提升
判断题需要对事实或逻辑陈述进行二元判断。对于某些事实,大模型可能存在知识盲点或知识不完整,从而导致回答错误。
通过检索相关的事实证据,GraphRAG帮助模型在回答之前验证陈述。这些补充信息提高了模型在判断题上的准确率。
3、开放式问题准确性提升
开放式问题允许进行广泛的、详细的回答,这对于仅依赖内部知识的大模型来说可能是一个挑战。
GraphRAG通过提供来自外部语料库的额外上下文和事实来缓解这一挑战。检索到的信息丰富了模型的回答,提高了主题细节和表达力,并通过将答案基于明确的证据来减少幻觉现象的发生。
4、填空题准确性下降
填空题需要精确理解上下文才能正确预测缺失的词语。GraphRAG检索到的语料库往往无法精确匹配上下文,引入的噪声会降低模型在填空题上的表现。
5、多项选择题准确性下降
多选题要求从一组选项中选择多个正确答案,并且涉及对复杂选项组合的推理;如果GraphRAG的检索遗漏了相关答案选项或包含无关细节,可能会使模型感到困惑。
因此,这些题型对检索精度要求很高;除非GraphRAG的检索高度准确,否则其益处可能有限。
1、https ://arxiv. org/pdf/2506. 02404
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。