被骂“在乱讲”的专家,这次可能说对了:传统数据仓库正在被 Agentic AI 吞噬


被骂“在乱讲”的专家,这次可能说对了:传统数据仓库正在被 Agentic AI 吞噬

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

作者|郭炜白鲸开源CEO,Apache基金会成员
从技术架构的角度看,我认为这一次的AI浪潮将深刻影响整个软件生态。DSS系统的设计是以人作为最终消费者的决策支持逻辑为中心,然而,随着AgenticAI时代来临,最终的“消费者”更可能是Agent,对数据仓库和复杂ETL链路将被重新设计,甚至消失。传统数据仓库偏重结构与查询模式,会被AgenticDataStack架构强调语义与响应模式取代。本文作者的原标题为《传统数据仓库正在被AgenticAI吞噬?AgenticDataStack初探》。
引言:Snowflake换CEO背后的信号

如果你只是把这当成一次高管轮换,理解就不够透彻,因为这背后真正的隐喻是,数据仓库世界的范式,正在悄然巨变。
“技术的演进,从来不是线性推进,而是技术的跃迁,从OLTP数据库到MPP数据仓库,从MPP本地化计算到向量化云数仓引擎,都是一个技术跃迁到另一个技术,从一个产品霸主到另一个产品霸主。”
Slootman是“数据仓库黄金时代”的代表。他押注云原生、押注多租户架构、押注Snowflake成为新一代数据平台的中枢,直接在市场上干掉了我从业的第一家公司——当年的数据仓库霸主Teradata(从102亿美金市值到现在20亿美金市值)。就在他功成身退的这一刻,Snowflake官方博客的关键词悄然切换:AI-first、Agent-driven、语义导向的数据架构。
这不是巧合,这是风向。
同一时间,硅谷最具前瞻性的风投们正在押注“AgenticAI”这个新概念:AI不再只是一个模型,它是一个能感知、能行动、有目标、有协作能力的Agent。
那么问题来了:
当AI不再只是“聊天工具”,而是能主动感知业务变化、理解意图并执行操作的智能体时,传统数据仓库这样的为“人”建造的决策支持系统还可以满足Agent的需要么?
数据仓库曾是企业的“重要的数据资产”,如今,却可能沦为Agent的“数据素材库”。甚至连“素材”这个词都在贬值,因为AgenticDataStack可以直接访问原始数据,并以语义+数据的形式直接供给给上层各类SalesAgent,RiskAgent直接使用;而数据仓库里无语义、冗余的数据只能留给传统BI和数据开发人员来消费。
真正危险的不是被淘汰,而是你还在运行上一代范式的规则,而世界已经换了剧本。
这不是对数仓的轻视,而是历史的轮回。正如当年Hadoop、Iceberg的崛起重构了数据湖,今天,AgenticAI正在重写企业级的大数据架构。
1970-2024:数据仓库架构是如何演进的
1970:数据仓库之父:BillInmon
数据仓库之父BillInmon首次提出“面向主题、集成、时变、不可更新的数据集合”这一概念(EDW),奠定了后半个世纪企业数据架构的基石。
我本人也有幸在20多年前在北京大学的时候,在唐世谓教授带领下,学习并参与翻译《数据仓库》第一版,这本书里对主题域、数据分层架构和缓变维(历史拉链表)的描述,从上个世纪一直沿用到今天,成为整体数据仓库的奠基之作。
1983:Teradata诞生,MPP架构横空出世
1983年诞生了未来30年横扫所有企业数据仓库基础设施的公司Teradata,这也是我毕业后第一份工作所在的公司。首次将MPP(大规模并行处理)架构引入数据处理系统,Teradata凭借软硬一体的基于Bynet的MPP架构,在超大量级数据处理和复杂SQL的情况下,比Oracle、DB2效率高出数倍。第一次使用Teradata的时候我的惊喜不亚于后来我首次测试使用ClickHouse做宽表查询时的惊诧。
我加入Teradata的时候,他还是一个NCR旗下的部门,我名片logo是这样子的,想了解Teradata的同学可以看我这一篇文章《再见,我的数仓黄埔军校,Teradata正式退出中国!》。
1996:Kimball提出“雪花模型”,OLAP引擎出现
继BillImmon之后,RalphKimball提出了“数据集市的概念”用星型模型和雪花模型重新定义了数据建模思维。此后数十年间,先建立数据集市还是先建立统一的数据仓库,变成数据仓库架构师不停争论的话题。“维度建模”和“雪花模型”成为数据工程师的名片;而BI报表底层也出现了例如HyprionESSbase,Cognos等MOLAP引擎,OLAP技术也终于有了系统方法论支撑。
在几十年后,新一代的数据仓库公司也用了Snowflake(雪花模型)作为其公司名称。
2013:大数据概念爆发,Hadoop风靡全球
随着2006年ApacheHadoop的横空出世,低存储成本的大数据系统被企业广泛引用。维克托·迈尔-舍恩伯格在《大数据时代》中给大数据下了定义:“Volume(数据量)、Velocity(数据速度)、Variety(数据多样性)、Value(数据价值)。”
2015年郭大侠(郭炜)和舍恩伯格合照
从此轰轰烈烈的建立大数据平台的过程开始起步,10年内,ApacheHadoop、Hive、Spark、Kafka、DolphinScheduler、SeaTunnel、Iceberg……一批大数据技术涌现,大数据平台开始动摇传统数据仓库的地位,以致于2015年后的中国,大多数中国企业存储Pb数据量级的数据平台不会用MPP架构传统意义数据仓库,而一定是用Hadoop或者Iceberg大数据平台/数据湖。
2015:Snowflake横空出世,NewDataStack兴起
随着云的兴起,MarcinZukowski“向量化”引擎论文的推出,Snowflake横空出世用云原生分离存算的架构,彻底颠覆了传统DW思维。BI工程师第一次可以“随需随用”、弹性扩缩容、不再焦虑集群调度和资源分配。Snowflake把“数仓”变成了“数云”。它带领下一众新一代数据仓库技术栈兴起,Fivetran、Daggster、Airbyte、DBT、WhaleStudio等一批新一代工具出现,在硅谷兴起了NewDataStack(新数据技术栈)的风潮。的确,上一代ETL工具和编程工具还是上个世纪80年代兴起的Informatica、Talend、DataStage这些公司,新技术的兴起的确需要新生态的形成。
整体上,这几十年数据仓库的发展,无论是数据仓库、大数据平台和云数仓和数据湖,基本上整体架构都如下图所示:
在Inmon时代,这个架构叫做DSS系统(决策支持系统),顾名思义,决策支持的就是人。整个数据仓库技术栈都是为人而设计的。
数据仓库的架构也是为数据开发工程师(DataEngineer)来设计的,所以会有N个主题域、要分原子层、汇总层、指标层来帮助ETL工程师进行开发,BI工具也需要建立星型模型和雪花模型,拖拉拽可视化形成报表和Dashboard。所有的消费者都是人。
但是,这一切,在大模型Agent时代都会发生很大的变化。
Agent正在吞噬传统数据仓库?!
2022年底,OpenAI推出ChatGPT,引爆大模型时代。
2023年后,Llama、Claude、Gemini、GPT-4o、DeepSeek……多模态模型加速演进,AI不再只是语言模型,而是具备复杂任务理解与决策能力的“通用智能引擎”。
2024年,RAG技术走向主流,LlamaIndex、LangChain、Dify等工具广泛应用,AI开始融合企业私域知识,成为真正“能查资料”的智能助手。
2025年,Agent架构全面崛起,AutoGPT、FunctionCalling、MCP协议等技术和协议涌现,AI不再只是聊天工具,而是具备感知、规划与执行能力的“数字员工”。
在数据领域,大模型的到来也带来很大的冲击。你用过ChatGPT的DataAnalyst么?如果用过,你一定惊异它的表现,它可以根据一份数据多个角度来辅助一个业务人员做一份详细的数据分析报告。它几乎可以替代初级数据分析师。而在不同层次也出现了很多“自动化”工具,例如ChatBI、TXT2SQL,各个维度都开始利用大模型和Agent自动化和半自动化地进行数据仓库开发过程。
未来,会有越来越多的Agent出现,不仅仅是数据分析领域,更多的的广告投放Agent,客服Agent,RiskManagmentAgent,它们将逐步解放现有的业务人员,替代他们与系统之间的交互。
最终,AI不再是“被动回答问题的工具”,而是“主动达成目标的智能体”。
过去20多年,数据平台的“用户”通常是数据工程师、分析师和BI人员。
而未来的20年,从分析师到供应链,每一个岗位的角色都可能被Agent所重构:
营销人员配有CampaignAgent,它可以自动整合多渠道数据、优化投放、生成文案;
客服坐席配有SupportAgent,它就不只是聊天机器人,而是具备知识图谱和上下文记忆的专属助理;
供应链部门配有ProcurementAgent,它就能解析订单、追踪货期、调用ERP数据并自动补货;
法务有ComplianceAgent,HR有HiringAgent,董事会也有BoardAgent……
你过去每天写的SQL、做的分析报告、开的运营会,正在变成一个个Agent的触发动作、语义指令和自动响应。
但一个现实问题随之而来:
如果最终数据消费者都已经是Agent,数据仓库开发也是Agent,连具体使用数据的决策者都是Agent而不是“用户”的时候,原先为人设计的“决策支持系统DSS”数据仓库整体架构还成立么?
学过软件工程的IT码农们都知道,设计一个系统首先要做的图就是“UseCase”图,确定系统和用户的边界和操作场景与行为。
当数据仓库的用户从人变成Agent的时候,原先BillInmon老爷子设计的整体DSS架构还成立么?我个人认为,不成立了。
软件用户变了,软件也必须变。
Agent的爆发,并不是大模型本身的胜利,而是“用户体验认知”被彻底颠覆:
过去的数据系统,是“拉模式”:用户知道问题、查询数据、提取结论。
未来的Agent,是“推模式”:系统主动感知变化,理解意图,生成决策建议。
这就像我们从传统地图升级到高德导航:
你不再需要知道“路在哪儿”,而是告诉系统你要去哪,它带你过去。
传统数据仓库偏重结构与查询,而Agentic架构强调语义与响应。
简而言之,谁能理解业务语言,谁就能统治数据世界。
AgenticDataStack和自带上文的数据ContextualDataUnit
对于Agent自动开发和使用来讲,当前数据仓库整体设计并不是为大模型和Agent设计的,所以,里面存储的都是“裸”数据。只有具体的数值和字段名称,而这个数值、这个字段名称是做什么用的,都存在另外一个叫做“数据资产”的项目里。想把每个数值、字段搞明白,需要进行一个“数据治理”的项目才可以完成。这个设计,对于语义才可以进行推理的大模型和Agent太不友好了。所以,如果为Agent和大模型重新设计大数据存储系统的话,一定需要把“数据”+“语义”放到一起存储,我管它叫:
ContextualDataUnit(CDU):语义+数据组合单元,每个数据自带语义和语义解释的二元组合。
把过去在数据目录(DataCatalog)里的信息,融合在每个数据条目当中,减少Agent和大模型访问的时候重新从其它系统里检索的时间和错误概率。
同时,CDU里面的语义数据也是从业务系统里经过总结和推衍得来的,所以,这里的数据本身,就是在DataFlowAgent从源头就组合成CDU,ETL/DataIngesstion到AgenticDataLake里,而不是后期生成的。换句话说,数据治理和溯源的过程是融入在Agent的自动开发过程当中,而不是现在的做法——在数据进入数据仓库之后,再开始血缘分析、数据治理一系列的复杂操作,这样做的结果数据很容易具有争议。
到这里,大家应该看懂我的思路了,AgenticAI时代,从过去的数据仓库ETL到数据存储,到数据应用分析,都会因为消费者是Agent和大模型而发生很大的变化。为了服务这些智能体,传统数据平台必须演进出一套Agent可调用、语义感知、事件驱动的数据架构——也就是我们所说的AgenticDataStack。
AgenticDataStack:在Agent时代,从底层数据获取“语义+数据”的工具,到支持CDU格式计算和存储的计算平台,到最终供给各Agent使用数据的数据交互层新一代的数据技术栈。
我大胆猜测下,未来AgenticDataStack可能有以下组件组成:
“数据交互层”(SemanticOrchestrator):不再是传统意义上的BI/查询界面,而是变成Agentic数据架构中的“大脑”和“指挥中心”,它通过自然语言理解和语义推理能力,作为其它Agent与底层数据资源之间的桥梁,实现智能化、多轮次的数据交互与服务生成。
“数据存储层”(DataMesh):不再是传统意义上的DataWarehouse(数据仓库)或DataLake(数据湖),而变成了一种服务性的、计算友好的数据融合层。这个层的本质是“存储提供融合语义+数据,既可供给大模型进行复杂计算的存储,也可以提供即时复杂计算能力”
“数据处理层”(DataFlowAgent):不再是“搬数据”,而是“理解和编排数据”;不再定时运行,而是事件驱动+意图驱动;能主动发现数据变化、分析表结构、理解业务语义、做出响应。
在AgenticAI时代,数据仓库和大数据平台的建设周期将极致地缩短,新数据的获取经过DataFlowAgent的自发发现,在DataMesh中预存储,SemanticOrchestrator解析和实际业务场景的业务口径与对应,最终实现从业务需求到数据响应的“即时计算”。
大模型解决的是智慧的大脑,Agent解决的是手和脚,AgenticDataStack是让LLM和Agent具有适合大模型时代快速的数据获取能力。
AgenticAI时代,随着建立新一代“数据仓库”成本显著降低,拥有可以自由对话查询,拥有相关的数据不再是大企业的权利,更是小企业甚至个人的权利。你可以把你的GoogleDrive,家里的私有NAS,电脑上的PDF,手机里的APP订单通过DataFlowAgent捕获到个人的数据存储里,用交互层APP快速查询例如“上个月去DisneyLand游玩一共花了多少钱”这种过去问题,而这种问题过去需要从多个平台整理到Excel表格里记录,甚至还可以解决“找到5年前保险订单及相关合同”这种复杂问题。
而这些并不是天方夜谭,最近由白鲸开源主导的ApacheSeaTunnel社区里发布了ApacheSeaTunnelMCPServer,已经开始了迈向DataFlowAgent的步伐。当然,中间还有很多未解决的技术问题,例如A2A协议还不够完善,DataMesh层的“语义+数据”存储计算结构还没有突破;把过去数据治理的成果变为SemanticOrchestrator输入也是需要时间来探索。
但是,大模型和Agent时代的到来,对于整个数据分析行业来说,就像从过去没有SQL语言到出现SQL语言之后的进展一样,都会发生深刻的变化。
打败你的,永远不是你现在眼中看到的所谓的“竞争对手”。讲个故事,小时候,我熟悉两个自行车品牌——永久和凤凰。它们曾在“加速轴”技术上竞争,看谁能跑得更快。然而,真正颠覆自行车市场的,却是一家外卖公司推出的共享单车,彻底改变了整个行业格局。随着Agent时代的到来,许多曾被视为核心的产品路线可能会失去意义。在低头看路的时候,也要抬头看天。
小结:活在当下,放眼未来
我在AICon/AWSCommunityDay和其它几个技术峰会上分享这个认知的时候,台下观众完全分成两派:一派是“降临派”,认为我估计AgenticDataStack到来5-10年太保守,AI发展日新月异,5年内AgenticDataStack就会成型。一派是“保守派”,认为AIAgent影响整个数据仓库架构太扯了,不可能发生,当前数据仓库存储形式就是最优ROI的数据存储方式,任何不是最优ROI的形式都无法普遍商业化,都只是空中楼阁,不要听这些“AI专家”乱讲。
而我个人是“中间派”:在趋势上,我认为AgenticDataStack形成是一个必然,这轮AI对技术架构的影响和前几次是完全不同的。不能只从技术观点上看数据仓库存储计算层ROI的产出,而要看当前企业数据仓库整体建设过程和维护过程的投入算总账。当前来看,实时数据仓库的兴起,数据湖的扩大,现在的数据仓库设计的层数在明显减少(我甚至认为我们这一批当年Teradata训练过的模型架构师退役之后,市场上都没有专业的数据仓库模型架构师了,因为业务变化太快,传统数据仓库专业模型设计跟不上变化)。所以在高速变更的业务情况下,传统数据仓库理论自己也在迭代,(现在实时数据仓库模型变成2层了,而不是过去的3层、4层),只不过我看到的是未来AgenticAI时代一步到位的趋势而已。算总账,AgenticDataStack会明显比现在的全套数据仓库NewDataStackROI高很多。
但是,这个趋势也不是马上能降临的,以我2016看中ClickHouse这个产品开始在中国运营社区,到2020年几乎成就了一代“实时OLAP”引擎标准的时间来看,有现成产品到被大家接受也要4-5年时间,而AgenticDataStack只有部分组件有一些创业公司雏形,大部分组件和核心产品还没有出世,也不可能5年内就一统天下。如果说节奏,我估计怎样也在实时数据仓库和数据湖被大面积企业接受之后,才可能到下一步AgenticDataStack。
“不是AI取代你,而是会用AI的人取代你;不是数据仓库被吞噬了,而是传统数据仓库偏重结构与查询模式,被AgenticDataStack架构强调语义与响应模式取代了。就像用上高德地图导航的人,不会再去看传统地图了。”
AgenticDataStack的门已经徐徐打开。
你,准备好了吗?
活动推荐
6月27~28日的AICon北京站将继续聚焦AI技术的前沿突破与产业落地,围绕AIAgent构建、多模态应用、大模型推理性能优化、数据智能实践、AI产品创新等热门议题,深入探讨技术与应用融合的最新趋势。欢迎持续关注,和我们一起探索AI应用的无限可能!
今日荐文
字节AI卷出新高度:豆包试水“上下文定价”,Trae覆盖内部80%工程师,战略瞄定三主线
苹果憋一年终超同参数Qwen2. 5?三行代码即可接入AppleIntelligence,自曝如何做推理
YannLeCun炮轰AnthropicCEO!这人“既要又要”:要么太自大、要么不诚实
曝豆包多模态负责人准备离职;马云频繁要求汇报Qwen3开发进度;北大“韦神”粉丝破2000万,评论区变高考许愿池|AI周报
别被MCP的包装骗了!重构系统、向智能体转型,CEO亲述:关键时刻还是RPA兜底?
你也「在看」吗?👇


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录