AI时代,数据库正在走向哪?

AI时代,数据库正在走向哪? OceanBase湖库一体AI数据库的价值恰恰在于将数据湖的开放与海量存储能力与数据库的事务、分析与实时处理能力构建到同一个架构中形成AI时代的新数据基础设施。这些思考和尝试从世界范围来看都是具有突破和创新性的——中国最先进、最大范围的AI落地土壤驱动着最创新和突破性的数据基建中国软件企业第一次有机会从标准的“跟随者”成长为“共同定义者”。作者|皮爷出品|产业家2026年很多企业找到杨冰他们颇具共性地提出一个问题如何把企业的非结构化数据管起来。作为OceanBase CEO伴随着AI下半场的来临杨冰能清晰感受到企业对“数据库”的特殊要求——数据库开始被要求不只要承担更多维的数据存储能力更要帮助构建智能体在企业真实业务扎根生长的数据土壤。这不是一件简单的事。如果向数据库的更细产品职能延伸这其中涉及到的不仅是对多模态数据的纳管更包括搜索引擎的重构、全盘数据的实时调取等等。如果把视角放大到整个中国市场会发现OceanBase和杨冰遇到的并不是偶然情况。过去18个月里几乎所有中国企业的CTO都在做同一件事把大模型“请进”公司。但结果并不如预期中乐观。根据Gartner 2025年发布的AI技术成熟度曲线显示如今生成式AI已经进入初步幻灭期——即企业对其期望过高但现实落地往往困难重重。去年年底麦肯锡发布的AI落地报告则更为直接——截止2025年年底仅有不到20%的企业能从生成式AI应用中量化显著的ROI大多数企业仍处于试点阶段。问题出在哪一个在今年开始被越来越多企业CIO乃至CEO意识到的问题是在模型参数和算力集群上之外AI与企业核心业务之间的那道数据鸿沟始终没有被认真填补。在通用的模型和企业所需的智能之间存在着一道宏大的业务上下文鸿沟。6月29日在OceanBase湖库一体AI数据库发布会现场杨冰表示模型再聪明聊天聊得再好如果说无法理解业务、参与决策、跑通流程它就没法为企业创造价值。AI时代企业到底需要怎样的数据库又或者说当Agent开始成为数据库的新使用者当非结构化数据跃升为“业务know-how”核心资产AI到底需要什么样的数据底座以及怎样的数据库能驱动AI走进真实的生产系统15年前双十一拉开了中国移动互联网的热潮分布式数据库应运而生站上数字化转型的主舞台15年后的今天伴随着AI进入人们生活成为企业新生产力框架数据库又正在迎来一次新变革。一、AI数据库走到了“岔路口”2024年在国内某头部车企的座舱大模型研发中发生这样一个问题。项目初衷是通过多模态大模型做智能座舱的个性化推荐——即模型需要同时理解用户的语音指令、车内摄像头捕捉的面部表情、以及车辆传感器数据最终响应回复。其数据库服务商提供的方案是在不同数据库产品之间通过“外挂AI”的方式帮助其完成数据检索和调用——语音文本存在NLP平台的向量库里图像特征存在另一个视觉AI平台的存储里车辆传感器数据存在时序数据库里。但问题很快产生。即前端的Agent要生成一个推荐至少要做三次跨系统调用反映到前端则是用户的每次请求座舱大模型每次都需要很长时间更严重的问题在于三个系统的数据时间无法保持一致如图像有200ms延迟传感器数据有500ms延迟这也就导致Agent给出的答案并不是基于真实数据和需求的答案为整个项目带来影响。这正是伴随着AI大模型浪潮开始目前不少企业采取但却屡屡碰壁的“数据库AI”路线。在回答AI需要什么样的数据底座之前不妨先来看当下行业内正在被趟出来的两条路。第一条路就是上文所示在存量架构上适配AI。这条路过去两年有大量样本。即传统数据库保持原有内核不变在外围叠加向量检索引擎、全文检索插件或独立的AI中间件。关系型数据库搭配外部向量库、数据湖上搭建检索层、Elasticsearch叠加Embedding管道——这些组合拳往往能带来不错的Demo效果由于不需要调整核心系统企业接受度也比较高。但真正把它放进生产环境问题就开始冒出来。最直观的一个是智能体拿到的永远不是完整的业务事实。一笔交易的数字存在关系型数据库里对应的合同文本躺在对象存储里客服录音的向量存在另一套引擎里。智能体要理解这笔交易的全貌就得跨三个系统拼数据——其中的延迟问题、数据不对齐问题会从根本上动摇前端的AI准确度。换言之架构裂缝很难被填平。其次成本。在这条路线中海量原始数据被直接灌给大模型做推理一次推理往往需要消耗海量的Token。理想的做法应该是先过滤再调用——在数据底座内部完成多模态混合检索只把最相关的信息喂给模型。但多系统拼装的由于检索和理解被割裂在不同的组件里无法绕过API自行完成调用。此外在今年这条路线还出现一个更大的问题即伴随着多智能体架构和LOOP工程的兴起Agent无法安全地试错自进化。以蚂蚁阿福、灵光为例在每个产品内部其同时运转的是成千上万个Agent。每个Agent都需要一个独立的试验环境——做对了保留做错了回滚。但在传统架构下这种独立沙箱环境在成本上根本不可行。在第一个路线之外还有第二条路就是从数据库内核出发重写底座。即服务商不以兼容旧架构为首要约束而是围绕AI的使用方式和数据形态重新设计数据的组织、存储、检索与调用方式。这个路线的产品设计对应的是一个本质的思考即“AI数据库的本质需求是什么”如果向上延伸不难得出结论——多模态统一存储、混合搜索原生内置、Agent友好架构、在线与离线数据闭环。但客观看这条路并不好走。即如果要满足这些新需求无异于对传统数据库架构的重新颠覆其中的引擎设计、固有的存算分离架构甚至底层的数据关系表都需要重写唯有如此才能完成对Agent实时调用和多模态需求的完全满足。虽表达形式不同但这两条路线本质都在求解一个问题AI时代数据库正在迎来一个全新且不可避免的挑战——AI驱动的世界里数据到底需要被以怎样的形式调用、分析、使用和流转二、OceanBase重走一条AI路6月29日一张测试集成绩被OceanBase放到台前。在MSMARCO测试集中OceanBase在Top10无过滤条件和Top100且1%过滤率双重指标中性能表现均超过Elasticsearch前者OceanBase为5.895毫秒Elasticsearch为7.448毫秒后者OceanBase为12.775毫秒Elasticsearch则是高达16.614毫秒。对MSMARCO测试集的一个介绍是其是业内公认的、用于信息检索和问答系统的标准大规模数据集880万Passage的规模足以模拟高并发、大数据量的真实生产环境。其中Top10平均延迟对应的是衡量系统返回最相关的前10条结果所需的平均时间在前端应用侧这直接关系到用户感知的响应速度Top100平均延迟则是衡量返回前100条结果的平均时间更多用于评估系统在复杂查询或大结果集下的吞吐能力。在这两项在AI时代足够重要的底层能力上OceanBase的性能均超过了专门做搜索起家的Elasticsearch。它做对了什么这张测试集成绩单被放到台前的同时在当天的发布会上OceanBase也正式向外界展示了自己在AI时代的数据库新思考——发布湖库一体AI数据库宣布从底层重构AI数据库。OceanBase选择的这条路对应的恰是业内罕见的“第二条路线”——真正为AI时代构建一套专属的数据基座。这也正是OceanBase湖库一体AI数据库的核心目标。换言之湖库一体AI数据库并不是在原有数据库基础上叠加AI插件而是重写底层基于真实的AI需求倒推出一套新的数据库架构。首先底层也是最核心的OceanBase Lakebase。它的核心设计是多模表——基于这张表结构化数据、非结构化数据和向量数据可以在同一张表里被统一管理。一张表可以同时容纳交易记录、文本段落、图片、音频、视频文件和向量Embedding。这个设计对应的不只是一个工程细节而是满足当下最真实的AI前端需求智能体不再需要跨系统拼数据它面对的就是一个完整的业务事实与此同时OceanBase还在多模表中引入了AI列概念——可以对表中的多行数据、多模数据同时执行AI搜索、计算如Embedding生成、打标把多模态数据处理的一致性写进数据库的底层内核。除此之外其还支持秒级Fork Database的数据沙箱——即每个Agent可以基于Loop框架构建出一套自进化、自反馈的独立沙箱环境基于独立隔离试验空间实现自进化智能体和智能体之间互相独立互不干扰。恰如前文所言一个当下的共识是未来在企业内部多Agent架构将成为业务表达的常态在协作的同时如何让每个Agent能基于LOOP体系稳定地实现自进化其中必需的设计恰是智能体开发环境的隔离。这也是这个设计的精妙之处。中间层OceanBase DataStudio。对其的一个描述是它可以帮助企业构建完整的数据表达链路其覆盖数据接入、加工、编排、语义建模到Agent协作的完整链路在它的帮助下企业可以把经由Lakebase处理的多模态数据近一步业务化、指标化进而更好地为上层应用服务。换言之基于OceanBase湖库一体AI数据库企业可以真正意义上从自身的全部业务积淀和业务表达出发构建出适配自身的“指标平台”和“内部数据开发平台”进而让前端Agent对企业业务环境有更充分、准确的理解。最上层OceanBase DataPilot它让不懂SQL的业务人员直接用自然语言完成分析报告和数据看板。和DataStudio类似基于底层的全模态数据理解企业基于OceanBase DataPilot可以获得更适配企业业务的回答和数据分析。这也恰是OceanBase湖库一体AI数据库的核心产品拼图。能清晰可见的是在这个新的数据库架构汇总企业对于AI需求正在被从底层满足不论是多模表还是全模搜索引擎抑或是秒级fork数据库的能力这些能力本身都在为当下企业最急需的Agent表达服务——让Agent能自我进化全面理解企业业务在保证安全性和一致性的前提下准确实时表达。从某种角度来看这种设计也更在重新定义数据库在AI时代的价值——其不再仅仅是一个数据存储计算模块而更在成为企业在AI时代的“核心大脑”“这个大脑”是决定企业能否构建出适配自身Agent把AI转化为企业生产力的关键。三、2026年OceanBase和AI数据库站上新起跑线从时间来看这次OceanBase的湖库一体AI数据库并不是OceanBase的“首秀“。“其实去年我们在做这件事的时候就模模糊糊看到AI的需求很不一样。”杨冰表示“当时我们就尝试用AI原生的方式在内核引擎上修改最后我们在产品上解放掉一些枷锁以轻量版的方式推出了OceanBaseseekdb保持一个月迭代一次初衷就是想看看能不能为Agent和非结构化数据专门设计这样一个数据库。”一段时间测试后伴随着来自客户现场和市场的正反馈OceanBase团队决定大举压上。据了解如今在OceanBase内部有专门的团队负责湖库一体AI数据库产品的研发迭代。这种迭代不仅在更适配AI环境的产品层面也在真实落地现场。杨冰介绍如今OceanBase团队会和面向不同行业的SI集成商一起帮助其做好既有的数据库业务之外也帮助其将能力延伸到AI层面以更好地满足企业AI数据需求。实际上OceanBase的这套架构在既有的积淀之外其也诞生于中国最前沿的AI生产场景。即OceanBase的湖库一体AI数据库伴随的是蚂蚁灵光、阿福等国民级AI产品的进化过程——以蚂蚁灵光为例其已然累计生成数千万个“闪应用”每个应用都是一个独立的Agent数据空间传统“少数据库大数据量”的架构设计很难满足这种“多数据库小数据量”的新Agent范式。OceanBase AI数据库基于成型的海量逻辑库能力让这些千万个Agent的数据空间低成本共存、按需启用、闲时近乎零成本。一个数据是相较传统多系统方案OceanBase AI数据库可降低整体TCO约30%-50%。同样的成长土壤还有阿福。作为如今服务上亿用户的健康管理APP其准确性建立在能够不断发现bad case、修复问题、重新评估的持续迭代基础之上。这也恰是当下市面上称之为Agent Harness的工程体系构建。对阿福这样的医疗专业级AI产品而言其最核心的难点在于构建一套不断进化的Agent评测——评测过程中Agent会调用流程、改写策略、改写数据但所有这些都不能影响和污染线上生产数据。传统数据库很难支持这种大规模的并行试错和自我进化但OceanBase AI数据库可以做到基于通过Fork Database 功能可以为AI提供了即用、即建、即抛的数据库沙箱——毫秒级创建、低成本开销、支持AI的并行试错和快速评测最终推进产品进化。需求在蚂蚁风控安全场景中其对数据一致性有严格要求基于OceanBase其可以实现不同数据之前的协同一致调用通过事务机制保证一致性将漏判率降到最低。可以说这些海量真实调用和最先进的AI需求也恰反向推动了OceanBase湖库一体AI数据库的能力成型实时性、多模态统一纳管、沙箱隔离环境——这些都在日均亿级调用中锤炼出来的产品判断。当模型能力趋于同质化、算力成为通用基础设施AI竞争的主战场正在从“谁的模型更强转向谁的数据底座更能支撑AI走进核心业务”对数据库而言其不单纯需要调整某个模块更需要调整自身的“角色”和“底层内核”。正如OceanBase CTO杨传辉在发布会上的表达“真正的一体化必须发生在架构层。湖库一体不是数据库和数据湖的简单拼接而是在同一套引擎中统一管理多模态数据打通在线与离线处理。”可以理解为OceanBase湖库一体AI数据库的价值恰恰在于将数据湖的开放与海量存储能力与数据库的事务、分析与实时处理能力构建到同一个架构中形成AI时代的新数据基础设施。这些思考和尝试从世界范围来看都是具有突破和创新性的——中国最先进、最大范围的AI落地土壤驱动着最创新和突破性的数据基建。从更广的视角看这轮新的软件浪潮里中国厂商正在完成角色转变从追赶一个已有标准到参与塑造一个尚未定型的新品类在AI数据库这条新赛道上中国企业第一次有机会从标准的“跟随者”成长为“共同定义者”。过去15年OceanBase等中国软件企业证明了国产基础软件能做到全球领先。今天AI数据库站上了新起跑线。当模型能力趋于同质化、算力成为通用基础设施AI竞争的下半场将不在模型层而在数据层。从需求出发以终为始。OceanBase选择的这条路对应的恰是对AI时代整个数据底座需求的全面应答也更是AI数据库的新起跑线。