纯Prompt提示LLM的多阶段知识图谱三元组抽取及Schema生成方案

发布日期: 2025-06-15

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年6月15日，星期日，北京，晴
我们来看看一个纯LLM驱动的知识图谱三元组及Schema提取方案，例如图中的实体节点（蓝色）和事件节点（绿色）是从文本中提取的，而概念节点（橙色）则是通过模式归纳获得。

为了形成上述图谱，看提取方式，可以当作纯LLM驱动的方式去做，为了得到上述节点，可以采用以下提示来获取：
1、TripleExtraction三元组抽取
依次通过三个阶段，分别抽取EntityEntity,Entity-Event,andEvent-Eventrelationships。
1）实体关系抽取，生成实体之间关系的文本三元组
识别实体与实体之间的关系，输出被解析为三元组（e1,r,e2），其中e1和e2属于实体节点集合VN，r属于关系类型集合R。
2）事件和实体三元组抽取，生成实体和事件之间关系的文本三元组*
识别实体与事件之间的关系，生成三元组（e,r,v）或（v,r,e），其中e属于实体节点集合VN，v属于事件节点集合VE，r属于关系类型集合R。
3、事件关系抽取，生成事件和事件之间关系的三元组
识别事件与事件之间的关系，生成三元组（v1,r,v2），其中v1和v2属于事件节点集合VE，r属于关系类型集合R。
2、SchemaInduction图谱Schema生成
将具体的实体、事件和关系抽象化为一般化的类型。这一过程利用大模型生成代表每种这些类型的抽象概念短语。
1）抽象事件短语生成，生成事件概念
2）抽象实体短语生成，生成实体概念
3）抽象关系短语生成，生成关系类型
为每个元素生成至少三个短语，这些短语在不同的抽象层次上封装了其类型或相关概念。
卡看具体的实验数据和成本：
整个代价并不低，80GB的GPU（具备1,513TFLOPS的FP16计算能力），运行带有FlashAttention的Llama-3-8B-instruct模型来构建知识图谱。
1、处理英文维基百科（En-Wiki，包含2. 439亿个节点和14.9亿条边）耗费了14,300个GPU小时；处理Pes2o-Abstract（包含1. 744亿个节点和11.5亿条边）耗费了11,800个GPU小时；
2、处理CommonCrawl（包含9. 373亿个节点和59.6亿条边）则耗费了52,300个GPU小时。
3、以批处理的方式处理每段1,024个token的文本，总共投入了约78,400个GPU小时，用于提取数十亿条语义关系。
但是，这个工作的工作量是很大的，但是这种方式很粗暴，有些问题还是不能回避，因为除了提取之后，还涉及到实体消歧、对齐、关系对齐、事件对齐以及概念消歧、概念层级等工作，这些往往是保证知识图谱可用性的前提。
1、https ://arxiv. org/pdf/2505. 23628
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。