仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
OpenAI最近发布的GPT-4.1震动了AI社区:惊人的100万token上下文窗口、精准度大幅提升,而Gemini2.5在研究模式下甚至宣称支持高达1000万token。作为一家RAG即服务创业公司的创始人,我的收件箱立刻被各种宣称RAG已死的消息塞满,建议我们在为时已晚之前赶紧转型。
但RAG真的已经死亡了吗?以下是为什么我们仍然坚定看好RAG,尽管新型大上下文模型令人印象深刻。
GPT-4.1、GPT-4.1mini和GPT-4.1nano最多可处理100万个上下文token,而之前的GPT-4o模型最多可处理12.8万个。100万个token相当于8个完整的React代码库,因此长上下文非常适合处理大型代码库或大量长文档。
GPT-4.1能够可靠地处理100万token上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比GPT-4o更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。
大上下文模型看起来像是灵丹妙药。它们的宣传效果很诱人:
毫不费力地处理海量数据
简化的API——不再需要复杂的索引和分块
零遗漏结果(所有内容都在上下文中!)
但任何在实际场景中使用过超大上下文的人都知道,现实并非如此美好。
考虑这个情况:一个典型的RAG查询大约是1000个token,成本约0.002美元。将此扩展到完整的100万token上下文会使成本增加1000倍,达到每次查询约2美元。不仅仅是成本,速度也会受到严重影响。OpenAI自己的演示显示,一个45.6万token的请求需要痛苦的76秒——想象一下用户每次互动都要等待那么长时间。在规模化应用中,这些延迟是不可接受的。
现代AI工作流程越来越多地利用代理方法——多个链式LLM调用以达到最终结果。每一步都会增加成本和延迟。突然间,那个每次查询2美元的场景膨胀成了在财务和运营上对严肃应用来说不可行的方案。
目前的大上下文模型无法有效处理引用。与RAG能够轻松引用源文本块不同,大上下文方法失去了关键的透明度。对于任何需要可验证性的应用——法律、医疗、技术领域——RAG仍然是不可替代的。
当然,100万token相当于约20本书,看起来很惊人。然而,这对于许多现实世界的企业来说还远远不够。我们与管理着数十亿——是的,数十亿——token的公司合作。即使是1000万token的上下文也远远不够。对于如此海量的数据,实用且可扩展的token经济学仍未解决。
虽然未来可能会带来支持仅使用上下文窗口模型的突破,但现在需要实用的解决方案。目前,RAG仍然是有意义、可扩展的AI应用的唯一可行选择。RAG不仅没有消亡——它正在茁壮成长。
所以,RAG还没有死,它才刚刚开始。
后续有很多值得我们探究的技术方向,比如DeepSearch,DeepResearch以及AgenticRAG等
添加微信,备注”LLM“进入大模型技术交流群
如果你觉得这篇文章对你有帮助,别忘了点个赞、送个喜欢
/作者:致Great