本文由白鲸开源CEO郭炜投递并参与由数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智化转型升级先锋人物》榜单/奖项评选。
在经历了半个世纪的数据仓库演进后,企业的数智化转型正迎来一次真正意义上的范式重构。从Inmon提出的“主题域”到Kimball的“雪花模型”,从Teradata的MPP引擎到Snowflake的云原生架构,所有的数据技术栈都有一个共同点:它们都是以“人”为最终消费者而设计的。报表、仪表盘、SQL查询,这些工具的逻辑都是帮助人类决策。
然而,随着AI Agent时代的到来,这一逻辑正在被彻底颠覆。Agent不再是被动的工具,而是能够感知环境、理解业务语义、主动执行任务的“数字员工”。当数据的最终消费者不再是分析师和管理者,而是Agent,本质上意味着企业数智化的用户边界被打破。传统的“人驱动决策支持系统”(DSS)模式正在让位于“Agent驱动的智能交互”。
在过往,企业往往陷入数据建设的形式主义:无止境的数据建模、报表开发和工具堆叠,形成了巨大的内耗。而当Agent成为主角🎭️后,数智化转型的重心将从“拼工具、卷报表”回归到“拼业务、拼价值”。这不仅是技术趋势的演进,更是企业生存逻辑的转变。
回顾:从“人为中心”的数仓,到大数据与云数仓的进化企业的数据体系的建立可以追溯到上世纪七十年代,那时,Bill Inmon提出了“面向主题、集成、时变、不可更新”的数据仓库定义,确立了以人为中心的决策支持系统(DSS)雏形。几十年间,企业围绕“如何让人做出更好决策”这一核心目标,不断迭代着数据仓库的形态。
进入八十年代,Teradata以MPP架构横空出世,在海量数据并行处理方面实现突破,成为数据仓库的代名词。九十年代,Kimball的维度建模与雪花模型大行其道,BI报表工具逐渐成熟,数据仓库真正走进企业管理层的日常。无论是复杂SQL,还是OLAP报表,本质上都是为了让人更快理解数据、辅助决策。
时间快进到2010年后,大数据与云计算兴起。Hadoop、Spark、Hive等技术,推动企业以更低成本处理PB级数据;Snowflake、BigQuery等云数仓则借助分离存储与计算的架构,为BI工程师带来了前所未有的弹性与便捷。再加上Fivetran、DBT等新数据栈工具,数据开发与分析的效率显著提升。
但无论是本地MPP,还是云数仓,或者新数据栈(New DataStack),它们都有一个共同点:数据的终点站依然是人。工程师要建模,分析师要写SQL,管理层要看报表。所有技术演进,归根结底,都是在回答一个问题:如何帮助人更好地看清数据背后的规律。
正因如此,当下的格局看似繁荣,却也显露出隐忧:数据系统复杂度与成本越来越高,但它们的价值依旧依赖“人肉解读”。这一点🕐️,正在成为未来新一轮技术变革的突破口。
AI Agent成为数据的“新用户”如果说过去半个世纪的数据体系都在服务人类,那么正在发生的最大转变就是:数据的消费者不再只是人,而是AI Agent。
所谓Agent,并不是简单的“聊天机器人️”,而是一类能够感知环境、理解语义、自动执行任务的智能体。它们不仅能回答问题,更能主动完成目标。例如,一个市场部门的Campaign Agent,可以自动拉取广告投放数据,整合多渠道表现,实时调整预算;一个客服部门的Support Agent,可以接入企业知识库,带着上下文记忆回答客户问题;在金融场景中,Risk Agent甚至能自动解析订单、实时触发风控策略。
在这样的模式下,传统数据仓库和BI工具的“人为中心”逻辑正在发生根本性动摇。过去,人需要明确问题、查询数据、再生成结论;而Agent的工作模式则是相反的:它能够主动感知业务变化,推送可能的风险与机会,甚至在得到授权后直接执行动作。换句话说,从“拉取式”数据查询,到“推送式”智能响应,数据的使用范式发生了颠覆。
这种转变不仅仅体现在交互层面,更深刻地改变了系统设计的边界。过去的DSS架构是为分析师建模、为工程师开发而设计;而现在,当“用户”是Agent时,数据系统必须具备新的特征:数据与语义结合,而不是单纯的字段与数值;事件驱动与意图驱动,而不是僵化的批处理调度;跨系统的自动协作,而不是孤立的工具链。
更重要的是,Agent的到来意味着企业数智化的角色分工被重新定义。分析师、报表开发人员的工作方式会发生变化,他们不再是“数据的最终搬运工”,而更可能成为Agent的设计者、监督者与价值验证者。管理层也将逐渐习惯从Agent获取洞察,而不是等待数据部门提供报表。
从“人”到“Agent”的跨越,看似技术演进,实则是 企业数智化认知边界的改变。谁能更好地适应这一变化,谁就能率先构建起面向未来的数据竞争力。
Agentic Data Stack如何打破低效与内耗在很多企业里,数智化建设往往伴随着沉重的“隐形成本”。业务部门频繁提出新需求,数据团队则陷入无休止的建模、报表、ETL调整之中。看似每一环都在运转,但真正交付到决策层的价值却有限。典型的现象包括:
• 建模过度:为了适配复杂的报表和分析需求,数据仓库被分割为原子层、汇总层、指标层,层层堆叠,维护成本高昂。
• 治理滞后:数据目录、血缘关系、质量校验,往往要在数据仓库落地之后再做补救,结果就是治理流程与业务需求总是脱节。
• 人力内耗:无数分析师在写重复的SQL、改动相似的报表,却很难沉淀出通用的方法论。
• 变更脆弱:一旦上游表结构发生变化,整个数据链条就像多米诺骨牌一样倒下,补救成本巨大。
这正是过去数智化转型中最容易陷入的“内卷”陷阱:拼命堆叠系统和人力,却难以形成规模化效能。
Agentic Data Stack的提出,正是针对这种困境。它带来几个关键性的改变:
• Data Flow Agent:不再依赖人工调度,而是通过事件触发与意图驱动,自动发现和编排数据流。数据结构的变化不再需要“人肉修复”,而是由Agent感知并自适应调整。
• CDU(Contextual Data Unit):数据与语义绑定,每条数据都自带上下文解释,减少了额外的数据治理开销,也降低了Agent使用数据时的歧义。
• Semantic Orchestrator:取代传统BI报表作为中枢,它不是生成图表的工具,而是Agent与数据之间的“翻译官”,通过自然语言和语义推理协调不同Agent的需求。
这种新范式的核心不在于“更强的算力”或“更复杂的模型”,而在于降低人力介入,提升系统自适应能力。企业不必再耗费巨资去养一支只会修复链路的团队,而是将注意力放在Agent的应用价值和业务创新上。
因此,Agentic Data Stack不是简单的技术升级,而是一种从根本上减少内耗、提升ROI的重构。它让企业把精力从“维护系统”转向“创造价值”,也让数智化建设真正走出“重复劳动”的泥潭。
企业数智化的新范式当数据的最终用户从人类转向Agent,企业数智化转型所依赖的逻辑也必须随之改变。这不仅是一场技术革新,更是一种系统性的范式转变。
在组织层面:数智化已经不再是IT部门的“专属项目”。过去,IT部门负责搭建数仓、开发报表,业务部门被动使用成果,双方常常因需求与交付周期产生摩擦。而在Agent驱动的架构下,业务部门能够直接依赖自身业务AI Agent获取洞察甚至执行操作。例如,财务人员无需等待报表出炉,就能通过Finance Agent进行模拟和预测;市场人员借助Campaign Agent自动完成投放优化。未来,企业内部的治理格局也会发生调整,“数据官(CDO)”与“AI官(CAIO)”可能并行出现,前者确保数据资产质量,后者负责智能体的落地与协作。
在技术层面:企业数智化不再是“拼平台”的游戏。过去几年,许多企业陷入了“研发/外包越多越先进”的误区,结果是系统冗杂、维护成本高昂。Agentic Data Stack的兴起,意味着技术堆叠将被简化,数据流转更敏捷,治理成本更低。竞争焦点也会从“多少工具”转向“如何让Agent更高效地理解和使用数据”。这让数智化从“人力驱动的劳动密集型工程”,转向“智能驱动的资本高效型工程”。
在商业层面:数智化的价值逻辑也会发生质变。过去,企业数智化的主旋律是“降本增效”,更多是为了提高效率、降低人力成本。而在Agent驱动的格局下,企业能够利用智能体快速测试新业务模式,主动捕捉市场机会,从而创造新的收入来源。换句话说,数智化从“成本中心”转向了“创新引擎”。这对于中小企业尤为重要:不需要像大厂一样搭建庞大数据团队,也能通过Agent低门槛启动转型,获得接近甚至超越行业巨头的敏捷性。
这种新范式的出现,标志着企业数智化已经走出过去的“堆叠和内耗”,迈向一个以 智能体协同、敏捷响应、价值导向 为核心的阶段。谁能率先理解并实践这一逻辑,谁就能在未来的竞争中占据主动。
案例与趋势展望当前,AI Agent在企业数智化中的应用仍处于探索阶段,离全面替代传统数仓和BI系统还有相当距离。但这并不妨碍一些具体场景率先落地。
例如,在数据集成与调度领域,WhaleStudio Pro基于 SeaTunnel+DolphinScheduler已经可以实现自动生成ETL流程。过去,解决异构数据同步问题,工程师需要手工编写抽取、转换、加载脚本,再由调度系统编排任务;而现在,业务人员一句话就可以让Agent系统能自动生成数据同步任务和相关调度任务,大幅提高了研发效率。这类“半自动化的数据流Agent”已经初步展现了生产力价值。
类似的探索也出现在金融风控、智能客服等场景,但大多还停留在试点阶段,距离大规模生产环境仍需验证。未来3-5年,随着Agent协议与工具链逐步完善,更多的企业数据系统会融入Agent元素,从而逐步迈向Agentic Data Stack的形态。
因此,可以说:Agent驱动的数据架构尚在路上,但它所带来的价值导向和设计理念,已经开始改变企业数智化的落地方式。
所有软件都会被Agent改写一遍回顾数据仓库半个世纪的发展,它始终是围绕“人”的决策需求而设计的。然而,随着AI Agent的崛起,这一逻辑正在被彻底改写。数据系统的“用户”正在从分析师、报表开发人员,转向能够感知、理解、执行的智能体。
这意味着,企业数智化的边界正在被重新定义:系统不再是被动地支撑人,而是主动地驱动业务。与此同时,企业也必须走出过去那种层层叠叠、重复建设的惯性,把精力集中在如何让Agent更快、更好地产生价值。
真正的挑战不在于数据仓库是否会消失,而在于企业是否能顺应范式的转变。未来已来,当Agent成为数据的主要消费者,数智化的核心竞争力将不再是堆叠多少工具,而是谁能最先掌握语义与智能的结合点。
你所在的企业,准备好迎接Agent这个新用户了吗?
·申报人“郭炜”简介:
郭炜,白鲸开源CEO、Apache基金会成员、Apache孵化器导师、ClickHouse华人社区创始人、Apache DolphinScheduler PMC Member,Apache SeaTunnel导师。
郭炜先生座右铭是“数据是有灵魂的,我将用一生去追寻它”。郭炜先生10+年致力于数据平民化,推动多个大数据开源和公共社区在中国的发展,是Apache DolphinScheduler PMC Member项目管理委员会委员、Apache SeaTunnel导师,ClickHouse华人社区发起人。打造了中国多个Apache开源社区,是信通院DataOps数据分析领域专家,曾经是ApacheCon Asia DataOps论坛主席,波兰DataOps峰会、北美Big Data Day演讲嘉宾,虎啸十年杰出数字技术人物,中国开源社区最佳33人,中国2025年开源杰出人物。
郭炜先生毕业于北京大学,师从数据仓库泰斗唐世谓老师。毕业后在Teradata、IBM、CICC任大数据重要岗位,曾任万达电商数据部总经理、联想研究院大数据总监、易观CTO。对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,贡献Presto,Alluxio,Hbase等,是国内开源社区领军人物。