长上下文 LLM 会让 RAG 过时吗？

发布日期: 2025-07-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是Ai学习的老章
经常在外冲浪，看到很多优秀的技术文章，独享不如分享
我会使用DeepSeek-R1+科技类翻译大师prompt翻译出来，大家一起学习
如有翻译偏差，请大家指教。
原文：#WillLong-ContextLLMsMakeRAGObsolete?By：AviChawla[ 1]
思考一下：
GPT-3. 5-turbo的上下文窗口为4,096个token。
后来，GPT-4将其提升至8,192个token。
Claude2达到了100,000个token。
Llama3. 1→128,000个token。
Gemini→1M+个token。
我们在扩展LLM的上下文窗口方面取得了巨大进展。
这引发了一个明显的问题，即RAG的相关性，研究人员对于长上下文LLM是否会使RAG过时仍存在分歧。
今天，让我们来探讨这场辩论，比较RAG和长上下文LLM，同时分析学术研究。
支持100万token上下文的大模型——MiniMax-M1
RAG从外部来源检索相关信息，而长上下文LLM则直接在其上下文窗口内处理大量输入。
虽然LLM可以总结整个文档并在段落之间执行多跳推理，但RAG在处理大规模、高成本效益的检索任务方面表现出色。
论文一)长上下文语言模型能否取代检索、RAG、SQL等？[2]长上下文语言模型能否取代检索、RAG、SQL等？\“)长上下文语言模型能否取代检索、RAG、SQL等？\“)
LOFT基准评估需要数百万token的检索和推理任务。
虽然Gemini1. 5Pro在多跳数据集（例如HotpotQA、MusiQue）上优于RAG管道，但对于更大的语料库（1Mtoken），RAG在可扩展性方面仍保持优势。
论文二)RAG与长上下文：检验前沿LLM在环境审查中的应用[ 3]
NEPAQuAD1. 0基准评估RAG和长上下文LLM在环境影响报告方面的表现。
结果表明，RAG驱动的模型在准确性方面优于长上下文LLM，尤其是在特定领域的任务中。
论文三)全面研究与混合方法[ 4]全面研究与混合方法)
本文对RAG和长上下文LLM进行了基准测试，并强调了它们的优势。SELF-ROUTE是一种结合了两者的混合方法，可在保持有竞争力的性能的同时降低成本。
token百分比和性能之间的权衡凸显了RAG在较小检索规模下的效率。
论文四)ChatQA2：连接开源和专有LLM[ 5]
ChatQA2：连接开源和专有LLM\“)ChatQA2：连接开源和专有LLM\“)
基于Llama3的ChatQA2评估了长上下文解决方案。
长上下文LLM的性能略低于RAG，同时还需要更多的token上下文。
以下是一些关键见解：
成本效益：使用长上下文LLM处理每个请求200K-1M的token可能耗费高达20美元，这使得RAG成为许多应用中更经济实惠的选择。
特定领域知识：RAG在需要精确、精选检索的细分领域表现更优。
互补集成：大多数RAG管道因检索效果不佳而失败，而这又是由于分块（chunking）不佳造成的。将RAG与长上下文LLM相结合可以提高检索和处理效率，并有可能消除对分块或块级召回的需求。
最近发布的一种名为CAG（缓存增强生成）的机制最近很流行。
其核心思想是用LLM扩展上下文中的预加载知识取代实时文档检索。这种方法通过避免检索错误和延迟来确保更快、更准确、更一致的生成。
主要优势：
低延迟：所有数据都已预加载，因此无需等待检索。
更少错误：预计算的值避免了排序或文档选择错误。
更简单的架构：没有单独的检索器——只需加载缓存即可。
更快的推理：一旦缓存，响应速度极快。
更高的准确性：模型预先处理统一、完整的上下文。
但它也有两个主要限制：
对动态数据不灵活
受LLM上下文长度的限制。
长上下文LLM提供了灵活性，但在成本和可扩展性方面面临限制。与此同时，RAG对于大规模检索任务仍然是不可或缺的。
一种集成了RAG和长上下文LLM的混合方法将重新定义信息检索领域，充分利用两种系统的优势。
检索将有助于降低仅使用长上下文LLM会产生的成本。
一个合适的上下文窗口仍然允许LLM更有效地对检索到的块进行推理，从而减少碎片化和幻觉。
制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等
参考资料

论文一)长上下文语言模型能否取代检索、RAG、SQL等？:https ://arxiv. org/pdf/2406. 13121
论文二)RAG与长上下文：检验前沿LLM在环境审查中的应用:https ://arxiv. org/pdf/2407. 07321
论文三)全面研究与混合方法:https ://arxiv. org/pdf/2407. 16833
论文四)ChatQA2：连接开源和专有LLM:https ://arxiv. org/pdf/2407. 14482

ZejunCao

https://zejuncao.github.io/2025/07/07/1000002720-2649000136-1-1751858023/