Agent 应用范式下,企业数据基础设施如何演进?

Agent 应用范式下,企业数据基础设施如何演进? 这个问题挺有意思的。说实话2024年到2025年大家聊AI Agent的时候重点基本都在模型能力、Prompt Engineering、Agent框架怎么搭。但到了2026年行业开始集体意识到一个问题模型本身已经不是瓶颈了数据架构才是。Anthropic那篇2026 Agent报告里有个数据很说明问题42%的企业说数据质量和数据访问是他们落地Agent的主要障碍。这个比例高得离谱说明问题不在于模型不够聪明而在于模型看不到它该看到的东西。Agent对数据基础设施的要求跟人完全不一样传统企业数据架构设计了几十年默认的最终消费者是人。报表给管理层看BI给分析师看OLAP给运营看——人看数据的时候会脑补上下文会问同事会根据自己的经验做假设。但Agent不会。一个客服Agent处理退款光知道退款规则没用它还需要知道这个客户是不是大客户、订单有没有关联销售承诺、当前客服有没有这个额度的审批权限。这些东西在人的脑子里不在系统里。所以企业数据基础设施面临的第一件事就是从给人看到给Agent用的范式转换。这不只是技术升级是整个设计哲学的变化。三条明显的主线第一条批处理退位实时流式上位。T1的小时级ETL链路在Agent场景下基本没法用。财务Agent拿到的仓位数据如果落后一天生成的交易指令可能直接就是错的。Gartner预测到2028年60%的企业数据平台会搭建HTAP架构统一事务处理和分析负载。本质上就是因为Agent需要实时数据访问和持续智能。现在主流的做法是在Lakehouse前面加一层流式SQL引擎比如RisingWave维持物化视图的增量更新延迟压到毫秒级。数据从Kafka过来经过流处理引擎实时写入Agent查询的时候看到的是当前状态不是十五分钟前的状态。第二条语义层/上下文层从可选变成必选。这个问题之前在技术圈讨论过很多次。传统数仓里口径不一致、字段命名混乱、历史包袱这些问题之所以还能跑是因为人在兜底。Agent没有这个兜底能力你给它一堆字段名它只能按照字面意思理解。所以2026年能看到一个明显趋势——企业开始建Ontology驱动的语义层。微软Fabric IQ把Ontology作为预览能力Snowflake Cortex Analyst强调Semantic ViewsGoogle Looker通过MCP把语义层接给Agent用。这些动作都在说明一个事情光有数据不够还得有Agent能理解的业务语义。本体化语义层做的事就是把收入这种不同系统有不同定义的概念统一映射成Agent能理解的实体和关系。当一个billing Agent更新订阅状态的时候retention Agent能理解这意味着什么因为它们操作的是同一个语义表示。第三条MCP协议成为企业数据连接Agent的事实标准。2024年11月Anthropic开源MCP的时候可能没预料到它长得这么快。到2026年3月MCP SDK月下载量从10万飙到9700万OpenAI、Google、Microsoft、AWS全部支持了这个协议。MCP的价值在于把N×M的集成问题简化为NM。以前每个模型接每个数据源都要单独写适配代码现在每个数据源写一个MCP Server每个模型写一个MCP Client就能互相通信。这对企业数据基础设施的影响很直接——数据平台必须支持MCP Server能力才能被Agent发现和调用。Navita Sood在Cloudera那篇文章里提了一个说法挺准确Lakehouse正在从回顾性分析的仓库演变成支撑自主Agent行动的高性能上下文层。这个转型背后MCP是关键的连接协议。还有一个容易被忽视的点——多Agent共享状态问题。单个Agent的场景还好办但多Agent协同的时候状态一致性变得很棘手。一个Agent更新了客户订阅等级另一个Agent同时在处理退款如果没有proper的隔离和协调会出现race condition数据就乱了。SurrealDB那篇白皮书里专门讨论了这个问题——他们叫agentic race condition。解决方案是需要一个Context Graph原生支持graph、documents、vectors和structured records的统一多模型底层在亚毫秒延迟下提供ACID事务保证让多个Agent能在同一个语义表示上协作而不破坏一致性。IDC的2026预测报告里提到到2028年60%的中国500强企业会部署企业级Data Agent实现动态数据处理、治理和追踪。这个数字听起来激进但考虑到现在的大厂动作OpenAI、Google、Microsoft四月密集发布Agent Workspace产品这个时间表可能还得再往前挪。我的判断Agent时代的数据基础设施不是把原有数仓接个大模型就完事了。它需要实时性流式链路替代批处理Agent看到的必须是当前状态语义化业务概念要能被机器理解和推理不能只靠人的经验传承可发现性数据资产要被Agent自动发现和调用MCP这类标准协议是基础设施一致性多Agent协同需要事务保障不能出现部分更新导致的脏数据治理合规、数据血缘、权限控制要内嵌到底层而不是事后打补丁对还没启动的企业来说HTAP架构和语义层是两件最重要的事前者解决实时性后者解决语义可理解性。已经有数据平台的企业重点是补齐MCP协议支持和流式链路。这些变化不会在一夜之间发生但如果不做Agent落地大概率会卡在数据这个环节——模型很聪明但它不知道该信哪份数据。