长上下文 LLM 会让 RAG 过时吗?


长上下文 LLM 会让 RAG 过时吗?

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
经常在外冲浪,看到很多优秀的技术文章,独享不如分享
我会使用DeepSeek-R1+科技类翻译大师prompt翻译出来,大家一起学习
如有翻译偏差,请大家指教。
原文:#WillLong-ContextLLMsMakeRAGObsolete?By:AviChawla[ 1]
思考一下:
GPT-3. 5-turbo的上下文窗口为4,096个token。
后来,GPT-4将其提升至8,192个token。
Claude2达到了100,000个token。
Llama3. 1→128,000个token。
Gemini→1M+个token。
我们在扩展LLM的上下文窗口方面取得了巨大进展。
这引发了一个明显的问题,即RAG的相关性,研究人员对于长上下文LLM是否会使RAG过时仍存在分歧。
今天,让我们来探讨这场辩论,比较RAG和长上下文LLM,同时分析学术研究。
支持100万token上下文的大模型——MiniMax-M1
RAG从外部来源检索相关信息,而长上下文LLM则直接在其上下文窗口内处理大量输入。
虽然LLM可以总结整个文档并在段落之间执行多跳推理,但RAG在处理大规模、高成本效益的检索任务方面表现出色。
论文一)长上下文语言模型能否取代检索、RAG、SQL等?[2]长上下文语言模型能否取代检索、RAG、SQL等?\“)长上下文语言模型能否取代检索、RAG、SQL等?\“)
LOFT基准评估需要数百万token的检索和推理任务。
虽然Gemini1. 5Pro在多跳数据集(例如HotpotQA、MusiQue)上优于RAG管道,但对于更大的语料库(1Mtoken),RAG在可扩展性方面仍保持优势。
论文二)RAG与长上下文:检验前沿LLM在环境审查中的应用[ 3]
NEPAQuAD1. 0基准评估RAG和长上下文LLM在环境影响报告方面的表现。
结果表明,RAG驱动的模型在准确性方面优于长上下文LLM,尤其是在特定领域的任务中。
论文三)全面研究与混合方法[ 4]全面研究与混合方法)
本文对RAG和长上下文LLM进行了基准测试,并强调了它们的优势。SELF-ROUTE是一种结合了两者的混合方法,可在保持有竞争力的性能的同时降低成本。
token百分比和性能之间的权衡凸显了RAG在较小检索规模下的效率。
论文四)ChatQA2:连接开源和专有LLM[ 5]
ChatQA2:连接开源和专有LLM\“)ChatQA2:连接开源和专有LLM
\“)
基于Llama3的ChatQA2评估了长上下文解决方案。
长上下文LLM的性能略低于RAG,同时还需要更多的token上下文。
以下是一些关键见解:
成本效益:使用长上下文LLM处理每个请求200K-1M的token可能耗费高达20美元,这使得RAG成为许多应用中更经济实惠的选择。
特定领域知识:RAG在需要精确、精选检索的细分领域表现更优。
互补集成:大多数RAG管道因检索效果不佳而失败,而这又是由于分块(chunking)不佳造成的。将RAG与长上下文LLM相结合可以提高检索和处理效率,并有可能消除对分块或块级召回的需求。
最近发布的一种名为CAG(缓存增强生成)的机制最近很流行。
其核心思想是用LLM扩展上下文中的预加载知识取代实时文档检索。这种方法通过避免检索错误和延迟来确保更快、更准确、更一致的生成。
主要优势:
低延迟:所有数据都已预加载,因此无需等待检索。
更少错误:预计算的值避免了排序或文档选择错误。
更简单的架构:没有单独的检索器——只需加载缓存即可。
更快的推理:一旦缓存,响应速度极快。
更高的准确性:模型预先处理统一、完整的上下文。
但它也有两个主要限制:
对动态数据不灵活
受LLM上下文长度的限制。
长上下文LLM提供了灵活性,但在成本和可扩展性方面面临限制。与此同时,RAG对于大规模检索任务仍然是不可或缺的。
一种集成了RAG和长上下文LLM的混合方法将重新定义信息检索领域,充分利用两种系统的优势。
检索将有助于降低仅使用长上下文LLM会产生的成本。
一个合适的上下文窗口仍然允许LLM更有效地对检索到的块进行推理,从而减少碎片化和幻觉。
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料

论文一)长上下文语言模型能否取代检索、RAG、SQL等?:https ://arxiv. org/pdf/2406. 13121
论文二)RAG与长上下文:检验前沿LLM在环境审查中的应用:https ://arxiv. org/pdf/2407. 07321
论文三)全面研究与混合方法:https ://arxiv. org/pdf/2407. 16833
论文四)ChatQA2:连接开源和专有LLM:https ://arxiv. org/pdf/2407. 14482


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录