仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
最近我们通过一些新闻博客包括LLMs产品的推出,DeepSearch和DeepResearch这两个词不断的映入我们眼帘。
图片来源:Jina,DeepSearch与DeepResearch的设计和实现https ://zhuanlan.zhihu.com/p/26560000573
在探讨DeepResearch设计与实现之前,我们先回顾下大模型问答、RAG问答、DeepSearch和DeepResearch的定义与区别,也从不同维度进行对比,以帮助我们更好理解它们之间的差异性。
这些术语经常在我们使用大模型的时候出现,然后它们也在提高我们生产效率变得日益重要,特别是在问答和信息检索的背景下。以下是详细分析,涵盖定义、实现方式和差异。
这个我们再熟悉不过了
大模型问答指的是利用大型语言模型(LLM)来回答用户提出的问题。这些模型,如GPT系列,通常通过海量文本数据训练,具备理解和生成自然语言的能力。
由于LLM包含大量参数,需要高计算资源,尤其对实时推理这个要求会更高。
在大模型问答中,模型直接基于其预训练知识生成答案。例如,询问“地球的直径是多少?”,模型会从训练数据中提取答案。然而,其局限在于知识的时效性和覆盖范围。例如,2025年最新的科学发现可能不在模型训练数据中,导致答案不准确。
从应用场景看,大模型问答适合简单、常见问题,但对于需要实时或特定领域知识的问题,表现可能有限,模型可能出现“幻觉”(hallucination),即生成不准确或虚构的信息,尤其在复杂或新颖问题上。
RAG问答,即检索增强生成问答,是一种结合检索和生成的技术。RAG框架通过从知识库中检索相关信息,然后由LLM生成答案,增强了回答的准确性和时效性。过程包括:
检索:给定用户查询,系统搜索知识库(如文档、网页)找到相关内容,通常通过向量相似性搜索。
生成:LLM基于检索到的信息生成自然语言答案。
例如,在医疗问答中,RAG可能从最新医学文献中检索数据,确保答案基于当前研究。
研究显示,RAG在开放域问答(如HotpotQA、TriviaQA)中表现优于纯LLM,尤其在多跳问答(multi-hopQA)中,需结合多个信息源。相比大模型问答,RAG更依赖外部知识库的更新和质量,知识库可以是结构化(如数据库)或非结构化(如PDF、网页)。
DeepSearch是一个较新的术语,尚未完全标准化,但从多个来源来看,它指的是一种迭代的搜索过程,涉及搜索、阅读和推理的循环。根据Jina前几天比较火的文章APracticalGuidetoImplementingDeepSearch/DeepResearch描述:DeepSearch被描述为“搜索、阅读和推理直到找到最佳答案”,类似于RAG但更强调多步工具使用。例如,AI可能先搜索相关文档,阅读内容,推理下一步搜索方向,再继续优化。
这种方法特别适合复杂问题,需要逐步细化信息。
从实现上看,DeepSearch可能涉及工具链,如向量搜索、关键词搜索,甚至web爬虫,结合LLM的推理能力。JinaAI的博客提到,DeepSearch在2025年已成为搜索新标准,特别是在Deepseek-r1模型发布后,Baidu和Tencent等平台已集成类似功能。相比RAG,DeepSearch的迭代性质可能提高检索精度,但也可能增加计算成本。
DeepResearch是一个AI代理,能自主浏览网页,生成带引用的长篇详细报告,处理复杂研究任务。
Jina文章中也提到:
DeepResearch是在DeepSearch的基础上,增加了一个结构化的框架,用于生成长篇的研究报告。它的工作流程一般从创建目录开始,然后系统性地将DeepSearch应用于报告的每一个所需部分:从引言到相关工作、再到方法论,直至最后的结论。报告的每个章节都是通过将特定的研究问题输入到DeepSearch中来生成的。最后将所有章节整合到一个提示词中,以提高报告整体叙述的连贯性。
我们可以看到DeepResearch是DeepSearch高级版本
例如,用户输入“2025年AI趋势”,DeepResearch会搜索相关网站,整理信息,输出结构化报告,包含关键发现和链接。
但是使用比较昂贵当前,DeepResearch提供给ChatGPTPro用户(每月200美元,100次查询),并计划扩展到Plus、Team和Enterprise用户(每月10次查询)。
以下表格总结四者的关键差异:
模型内部预训练知识
外部知识库(文档、数据库)
动态搜索,迭代获取信息
自主web搜索,生成报告
直接生成答案
检索+生成
搜索-阅读-推理的迭代循环
自动研究,生成带引用的报告
简短文本答案
基于检索的答案
可能涉及详细推理过程
长篇结构化报告,含引用
简单问题,常见知识
需要实时数据的复杂问题
复杂问题,需要多步推理
深入研究任务,生成报告
知识时效性差,可能出现幻觉
依赖知识库质量,检索可能冗余
计算成本高,迭代复杂
可能有幻觉,区分权威性困难
从上述对比看,大模型问答是最基础的形式,RAG问答通过检索增强了准确性,DeepSearch进一步迭代优化搜索过程,而DeepResearch则是自动化的研究工具,输出形式更适合学术或专业需求。
由于Jina开源的node-DeepResearch是Typescript开发,笔者在TrustRAG框架基础之上,用python实现了一个简易版本的DeepResearch,以下为实现逻辑。
TrustRAG地址:https ://github.com/gomate-community/TrustRAG
TrustRAG:TheRAGFrameworkwithinReliableinput,Trustedoutput
DeepResearch流程示意图如下:
DeepResearch框架通过分层查询、递归迭代以及智能决策等步骤,实现深度信息搜索和处理。本流程主要包含以下关键步骤:
1.意图理解(IntentUnderstanding)用户输入查询后,系统会将其解析为多个子查询,以便更精确地理解用户需求。
2.处理条件判断系统会根据如下条件判断是否继续执行:
Token预算是否超出
动作深度是否超出
如果满足上述条件,则终止查询并直接返回答案;否则进入递归执行步骤。
3.递归执行步骤在递归执行过程中,系统执行信息检索、模型推理及上下文处理等任务信息检索
获取当前问题
构建问题执行序列
递归遍历
深度优先搜索
系统进行模型推理,通过系统提示和上下文理解来判断下一步动作。
4.动作类型判定根据推理结果,系统决定下一步执行的动作类型:
answer:回答动作
reflect:反思动作
search:搜索动作
read:阅读动作
coding:代码动作
这些动作会影响上下文,并不断更新系统状态。
5.结果反馈根据最终的动作类型,系统执行相应的任务,并将结果返回给用户,完成整个流程。
以上流程是根据一些开源方案理解大致拍了一下,大家也可以根据自己的理解去设计,这里仅限参考。
下面是一个测试例子,查询问题为:大模型强化学习技术
下面是意图拆解以及递归搜索的示意过程:其中搜索引擎采用的websearch搜索,主要是免费的duckduck,searxng来实现的。
到最后差不多生成了不到2000字的报告,整体过程耗时不到4分钟多。上图是最后生成的一个markdown报告,总体来说逻辑还算是正确的,形式相对可以。不过篇幅内容较短,关于“强化学习在大模型应用”阐释不够具体。
通过一些现象下面是关于DeepResearch实现的几点思考:
通过对比与grok3deepsearch结果,其实可以发现一些差距,关于背后实现确实有很多可以打磨的细节,比如搜索内容的信息源,网页内容检索的质量,影响非常大。如果检索出来内容不准,检索内容过少,检索内容噪音较多,这些都会对模型生成带来影响,包括不限于模型幻觉,模型生成中断,内容逻辑混乱
其实可以说DeepResearch是用来做复杂任务的,上面其实问的问题相对比较宽泛,又比如我们问法国的首都是哪个城市?其实这种简单问题不适合这个场景,所以很多平台开启了DeepSearch切换模式,也就是上面四个问答模式可以用在不同场景的,需要我们结合问题去自由选择,最好能够收益最大化。
上面测试例子我用的GPT4-o3-mini的API,假设我们用一些输出带有思维链的模型,比如DeepSeek-R1系列,可能速度会慢很多。如果为了显示思考过程,也可以用R1系列。但是这里需要注意的是,DeepResearch中间迭代反思的过程和模型自己本身推理思考的过程是不同的,模型本身的DeepThink的思维链,DeepResearch的反思是多个动作组合。不过从Grok3的体验来看,更加偏向于不断反思,而不是问一个问题,直接把所有思维链一下子输出,毕竟中间涉及到不断的检索,所以这个时候感觉过多的思考直观感受就是会慢上加慢,另外就是模型本身思维链输出收益不大,比重不高。
中间动作可能会涉及检索、思考、内容抽取、答案总结等,目前实现的是直接根据每个子查询的答案总结拼接成一个上下文,然后根据提示生成最终的报告,那么其实中间很多信息目前还没有想好怎么去用。如果用上全部检索信息可能也不显示,直接用原始检索内容可能也不合适,一个是token消耗比较多,另一个是会造成信息冗余。
总结来看,DeepResearch的实现需要在信息检索、模型推理和结果整合等方面进行精细打磨。通过优化检索源的质量、合理选择模型的推理方式以及有效利用中间结果,可以提升模型的生成效果,减少幻觉现象,确保输出内容的逻辑性和连贯性。在实际应用中,应根据具体场景选择合适的模式,以最大化地发挥DeepResearch的优势。
DeepSearch与DeepResearch的设计和实现
DeepRAG:ThinkingtoRetrievalStepbyStepforLargeLanguageModels
Githubdeep-research
添加微信,备注”LLM“进入大模型技术交流群