TreeHop：无需LLM的高效多跳问答新范式

发布日期: 2025-05-06

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

在人工智能领域，多跳问答（Multi-hopQuestionAnswering,MHQA）一直是一项极具挑战性的任务。这类任务要求系统通过多步推理，从不同文档片段中综合信息才能得出答案。例如，回答“特朗普的祖父是谁？”这样的问题，往往需要先检索“特朗普的父亲是弗雷德·特朗普”，再进一步查询“弗雷德·特朗普的父亲是谁”。然而，现有方法依赖大型语言模型（LLM）反复重写查询，导致计算成本高昂、延迟显著。近期，一项名为TreeHop的研究提出了一种全新的解决方案，通过嵌入空间的动态更新，实现了99%的延迟降低与5%-0.4%的模型参数量，为高效多跳推理开辟了新路径。
现有的检索增强生成（RAG）系统通常采用“检索-重写-向量化-再检索”的循环流程。例如，系统需用LLM根据首次检索得到的文本生成新查询，再重新编码并检索。这一过程虽能提升召回，但每次迭代均需调用LLM对原问题进行重写（queryrewrite），再使用sentenceembedding模型映射到向量空间，导致计算资源消耗巨大，延迟过高，难以在工业场景中高效部署。
TreeHop的创新在于完全摒弃LLM，直接在嵌入空间中完成多跳推理。其核心机制包括：
TreeHop通过queryembedding与文档块嵌入的动态交互生成下一步查询，其公式为：其中：
：通过减法抑制当前query与文档块的语义重叠，避免冗余检索。例如，若当前文档已确认“弗雷德是特朗普的父亲”，从更高维的角度来理解，该操作会剔除query中与“弗雷德”相关的信息，确保下一跳聚焦于未解决的语义（如“弗雷德的父亲”）。

两者的结合实现了“去冗余”与“信息增强”的协同：减法操作防止重复检索，而加法操作引入新线索。
冗余剪枝：若某文档片段已在先前步骤中被检索，则终止该路径。
层级Top-K剪枝：每层仅保留相似度最高的K个候选，将检索复杂度从指数级（如5³=125）降至线性增长（如5*3=15）。

TreeHop的技术突破为工业界提供了极具吸引力的解决方案：
成本效益：参数量仅为传统方案的0.4%-5%，可于单块NvidiaV100GPU中训练，显著降低硬件投入。
实时性：99%的延迟缩减使其适用于客服系统、金融信息检索等对多跳场景刚需，同时对响应速度敏感的领域。
多语言支持：TreeHop基于BGE-m3模型的embedding训练，可快速适配全球化业务需求，如跨境法律咨询或跨地区医疗知识库。
备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群
id：DLNLPer，记得备注呦

ZejunCao

https://zejuncao.github.io/2025/05/06/1000001960-2247538478-3/