基于知识图谱的Zero-Shot问答:大语言模型的事实锚定新范式
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
点击“蓝字”关注我们
大语言模型(LLMs)凭借其强大的预训练能力,在零样本闭卷问答任务中展现出惊人的知识调用能力。这种“开箱即用”的问答能力源于模型在训练阶段对海量文本的知识内化,例如GPT-4通过万亿级token的学习,构建了涵盖历史、科学、文化等多领域的知识网络。然而,这种内在知识体系存在显著缺陷:
:预训练数据截止到2023年10月的模型,无法回答2024年诺贝尔文学奖得主等时效性问题。
:模型可能混淆“爱因斯坦是否获得过两次诺贝尔奖”等细节事实,产生虚构内容(幻觉现象)。
:通过微调模型更新知识需消耗大量算力,且可能破坏原有能力,如ChatGPT微调成本达数百万美元/次。
知识图谱(KG)以三元组(头实体,关系,尾实体)的结构化形式存储知识,为LLMs提供了外部事实锚点。例如:
:DBpedia图谱中“《奥义书》-writtenin-印度”的三元组,明确替代LLMs可能生成的“《奥义书》起源于两河流域”等错误表述。
:通过“牛顿-发现-万有引力定律”与“万有引力定律-解释-行星轨道”的链式三元组,支持多跳推理。
:图谱可实时更新“2025年世界杯举办地-卡塔尔”等时效性知识,无需修改模型参数。
KAPING(Knowledge-AugmentedLanguageModelPrompting)提出“检索-注入”的零样本知识增强范式,核心突破在于:
:直接利用现有LLMs(如LLaMA-2、ChatGLM-4),通过提示工程实现知识融合。
:解耦实体链接、知识检索、提示生成等组件,支持灵活替换技术方案(如不同的实体识别工具)。
:相比文档检索的长文本输入,图谱三元组的向量匹配计算量降低60%以上(基于Sentence-BERT的对比实验)。
实体识别与链接是连接自然语言问题与知识图谱的桥梁,采用双重检测机制提升准确性:
:利用en_core_web_lg模型提取命名实体,覆盖人名(如“简·奥斯汀”)、作品名(如《劝导》)等18类实体,F1值达92. 3%。
:通过实体消歧算法,将“LadySusan”映射到DBpedia中的正确实体(简·奥斯汀的小说),而非同名人物,准确率较单一模型提升17%。
:基于SpaCy词向量计算问题实体与图谱实体的余弦相似度,设置0. 7的阈值过滤噪声匹配,例如将“呼啸山庄”与图谱中“WutheringHeights”的相似度0. 92判定为有效链接,而“巴黎圣母院”与“Notre-DamedeParis”的0. 68相似度则被拒绝。
将图谱三元组转换为LLMs可理解的文本格式,采用线性拼接策略:
:将(实体A,关系R,实体B)转换为“实体A[ 关系R]实体B”,如(“牛顿”,“出生于”,“伍尔索普村”)转为“牛顿出生于伍尔索普村”。
:对于同一实体的多重关系(如“爱因斯坦”同时关联“提出”相对论和“获得”诺贝尔奖),采用分号分隔的列表形式:“爱因斯坦提出相对论;爱因斯坦获得1921年诺贝尔物理学奖”。
:统一同义关系表述,如将“创作”“撰写”“编写”等均映射为“创作”,减少LLMs的理解歧义。
通过语义向量匹配实现知识的精准筛选,核心步骤包括:
:计算问题向量与每个三元组向量的余弦值,保留前K个最高得分项(实验表明K=5时综合性能最优)。例如,针对问题“《傲慢与偏见》的作者是谁”,在检索到的12个三元组中,“简·奥斯汀-创作-《傲慢与偏见》”的相似度0. 98被优先保留,而“简·奥斯汀-出生于-斯蒂文顿”(0. 72)、“《傲慢与偏见》-改编为-电影”(0. 65)等低相关项被过滤。
:限定检索1跳邻域实体(直接关联的三元组),避免引入过多噪声。实验显示,1跳检索的准确率(89. 2%)显著高于2跳(68. 7%),因后者可能包含“作者的出生地-属于-英国”等间接信息,干扰核心判断。
设计分层提示模板以引导LLMs利用外部知识:
“简·奥斯汀创作《傲慢与偏见》;简·奥斯汀是19世纪英国小说家。问题:《傲慢与偏见》的作者生活在哪个时代?”
“根据以下事实回答问题:事实1:牛顿是英国物理学家;事实2:牛顿发现万有引力定律。问题:牛顿的主要贡献是什么?请基于上述事实作答。”
“《蒙娜丽莎》是达芬奇的作品达芬奇是文艺复兴时期画家问题:《蒙娜丽莎》的创作者属于哪个艺术流派?”
LLMs在接收增强提示后,执行“知识整合-逻辑推理-自然语言生成”的三级处理:
:通过注意力机制将问题向量与知识向量进行交互,例如LLaMA-2的多头注意力层可捕捉“作者-作品-时代”的关联关系。
:基于知识片段构建推理链,如从“简·奥斯汀-创作-《傲慢与偏见》”和“简·奥斯汀-生卒年-1775-1817”推导出“19世纪初”的答案。
:强制模型引用提供的知识,避免编造信息。实验显示,在医学问答场景中,知识增强提示使幻觉率从32%降至8%。
:选用WebQSP(5810个问题,涉及Freebase图谱)、ComplexWebQuestions(3778个多跳问题)、WikiQA(3047个事实型问题)。
:
基线模型:LLaMA-2-70B(零样本)
文档增强:LLaMA-2-70B+Retrieval(基于Wikipedia文档检索)
图谱增强:KAPING+LLaMA-2-70B(本文方法)
:
EM(ExactMatch,精确匹配)
F1分数(针对非实体型答案)
幻觉率(通过FactCC工具检测)
模型
WebQSP-EM
ComplexWebQuestions-F1
WikiQA-EM
LLaMA-2-70B
58. 2%
41. 5%
65. 3%
LLaMA-2-70B+Retrieval
67. 8%
52. 3%
74. 1%
KAPING+LLaMA-2-70B
79. 1%
68. 9%
82. 7%
分析:
在WebQSP单跳问答中,KAPING通过精准实体链接和知识检索,将EM提升20. 9%,显著优于文档检索的9. 6%提升,表明结构化知识的高效性。
多跳问题处理中,图谱的关系网络支持推理链构建,F1提升16. 6%,而文档检索因长文本噪声导致提升有限(10. 8%)。
在WikiQA的医学子集中,KAPING将幻觉率从基线模型的28%降至9%,典型案例如下:
:问题:“阿司匹林的主要副作用是否包括低血压?”回答:“是的,阿司匹林可能导致低血压,尤其是高剂量使用时。”(事实:阿司匹林主要副作用为胃肠道反应,低血压罕见)
:提示包含三元组“阿司匹林-副作用-胃肠道不适;阿司匹林-副作用-过敏反应”回答:“阿司匹林的常见副作用包括胃肠道不适和过敏反应,目前没有证据表明其会显著导致低血压。”
模型
每千次问答耗时(秒)
内存占用(GB)
LLaMA-2-70B
128. 5
82
LLaMA-2-70B+Retrieval
215. 3
118
KAPING+LLaMA-2-70B
156. 7
89
分析:KAPING的知识检索基于向量相似度计算(平均每问题处理15个三元组),耗时仅比基线增加22%,远低于文档检索的68%增幅。内存占用增加主要来自图谱存储(平均每个图谱约50MB),显著低于文档检索的300MB+索引文件。
低资源语言(如斯瓦希里语)的实体识别准确率不足50%。
同名实体消歧依赖外部知识库,如“华盛顿”可能指向城市或人物,需更多上下文信息。
超过3跳的关系推理(如“作者-国籍-国家-首都”)时,准确率下降至45%,因误差在链式检索中累积。
复杂关系(如“影响”“导致”)的语义建模不足,LLMs难以捕捉隐含逻辑。
现有KGQA数据集以实体答案为主(如WebQSP的EM指标),但LLMs常生成描述性回答(如“简·奥斯汀是19世纪英国小说家”),导致评估偏差。
缺乏针对幻觉的细粒度评估标准,如FactCC仅覆盖事实对错,无法检测观点性错误。
引入对比学习训练实体匹配模型,如使用TripletLoss优化图谱实体与问题实体的向量距离。
结合视觉信息辅助消歧,如通过图片识别“巴黎圣母院”实体对应的建筑,而非文学作品。
构建关系路径预测模型,如基于TransE的图谱嵌入技术,提前预测可能的推理路径(如“人物-出生地-城市-国家”)。
设计分层提示引导分步推理,例如:“第一步:找出《简爱》的作者;第二步:确定该作者的国籍;第三步:汇总答案。”
开发实时图谱更新接口,如通过RSS订阅自动抓取新闻中的时效性知识(如“2025年奥运会举办城市-巴黎”)。
设计知识置信度评分机制,对高频更新的知识(如股市数据)添加时间戳,提示LLMs优先使用最新事实。
引入BLEU-KG指标,计算生成答案与图谱三元组的语义匹配度。
建立众包评估平台,人工标注幻觉类型(如事实错误、关系混淆、时效错误),为模型优化提供细粒度反馈。
KAPING框架揭示了一条无需深度模型改造的LLMs知识增强路径,其价值不仅在于提升问答准确性,更在于:
:在金融风控(基于图谱的企业关系查询)、医疗诊断(最新诊疗指南注入)、法律检索(法规条款实时匹配)等对事实准确性要求高的场景具有落地潜力。
:对于参数规模小于100亿的LLMs(如LLaMA-7B),知识增强可弥补其内在知识不足,使其在特定领域达到大模型性能。
:通过“图谱更新-提示调整”的轻量级流程,支持LLMs的知识迭代,避免传统微调的“灾难性遗忘”问题。
然而,实现通用型知识增强LLMs仍需跨学科突破:神经符号系统的深度融合、开放域图谱的实时推理、多模态知识的联合表示等。未来的研究可能从生物脑的“陈述性记忆-程序性记忆”机制中获取灵感,构建更接近人类推理的知识调用模型。正如知识图谱之父TimBerners-Lee所言:“链接数据的终极目标是让机器理解世界的本质”,而KAPING正是这一目标在大语言模型时代的重要实践。