李飞飞世界模型的功能分类法:当渲染、模拟与规划走向融合

李飞飞世界模型的功能分类法:当渲染、模拟与规划走向融合 李飞飞团队提出世界模型三分法为空间智能奠定概念基石世界模型空间智能具身智能计算机视觉图1. 世界模型的功能分类法渲染器、模拟器与规划器三者共同构成智能体与物理世界交互的完整闭环图片来源A16Z News / Dr. Fei-Fei Li核心观点李飞飞教授与 World Labs 团队在最新发表的文章中针对当前世界模型概念的泛化与混用现象提出了一个基于功能视角的系统分类框架。该框架以强化学习中的经典 POMDP 闭环为理论根基将世界模型划分为渲染器Renderer、模拟器Simulator与规划器Planner三大功能类别。文章指出模拟器是连接渲染与规划的关键枢纽而三者的融合正推动着统一世界基础模型的诞生为空间智能的长远发展指明了方向。一、引言当世界模型成为最热门也最混乱的概念2025年以来“世界模型大概是人工智能领域最为炙手可热同时也最为混乱的概念之一。当 OpenAI 发布 Sora 时将其称为世界模拟器”Google 的 Genie 系列允许用户在生成的三维场景中自由行走探索同样冠以世界模型之名机器人公司宣称正在构建世界模型以指导机械臂操作NVIDIA 则将 Omniverse 定位为世界模型的基础设施平台甚至连传统的游戏引擎也被纳入了这一叙事框架。一时间似乎所有与三维环境、物理交互或视频生成相关的技术都在共享同一个名称。然而这种命名的泛化带来了严重的概念混淆。一个能够生成视觉上华丽但物理上不可能的火焰效果的视频模型一个能够即兴生成可玩游戏关卡的语言模型以及一个忠实模拟燃烧过程中流体动力学与热传导方程的物理引擎——它们在技术路径、评价标准与应用场景上存在本质差异却被统称为世界模型。这种局面让人联想到古希腊哲学家对世界本原的争论有人认为是火有人认为是水有人认为是不可分割的原子。世界从来就不是单一的东西它始终是思想家为了推理某种总体性而使用的替代词。人工智能领域继承了同样的问题而且恰好发生在该技术最需要精确性定义的时刻。正是在这一背景下斯坦福大学计算机科学教授、World Labs 创始人李飞飞Fei-Fei Li与其团队于 2026 年 6 月在个人 Substack 发表了题为《A Functional Taxonomy of World Models》的长文试图为这一混乱的概念场域建立一套清晰的分析框架。文章的核心贡献在于它并非简单地罗列现有技术而是回到强化学习理论中最经典的智能体-环境交互闭环从中提炼出世界模型应当具备的三大功能维度并据此对当前技术生态进行系统梳理。这一分类法不仅有助于研究者定位自身工作的理论坐标也为产业界理解不同技术路线的适用边界提供了有价值的参考。图2. 李飞飞教授World Labs 创始人长期致力于计算机视觉与空间智能研究图片来源Substack / Dr. Fei-Fei Li二、分类法的理论根基POMDP 闭环与 Craik 的心智模型要理解李飞飞团队提出的分类框架首先需要回到一张比当前所有深度学习技术都更为古老的图示。在所有经典的强化学习教材中——包括 Richard Sutton 与 Andrew Barto 的奠基性著作——都使用同一幅图的变体来描述智能体如何与世界交互。这幅图的正式名称是部分可观测马尔可夫决策过程Partially Observable Markov Decision Process, POMDP而世界模型这一术语最初的严格定义便属于这一理论传统。POMDP 闭环的结构可以概括为五个核心要素的循环智能体Agent执行动作Action动作改变世界的状态State但智能体永远无法直接观测到状态本身它所接收到的只是观测Observation——落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测引导智能体做出新的动作循环往复形成完整的感知-行动回路。值得注意的是这里的状态具有特定的技术含义它指的是物理学家与机器人学家所理解的状态即对世界在某一时刻所发生的一切的完整描述包括每一个物体的位置、速度、材质属性与几何关系。状态是世界的底层现实原则上是完备的但对于身处其中的任何智能体而言永远不可直接观测。观测是智能体对这一现实的局部视角动作则是智能体据此做出的回应。图3. 强化学习中的经典智能体-环境交互闭环观测、动作、状态与奖励构成 POMDP 的核心要素图片来源MathWorks世界模型这一短语本身具有更为悠久的学术渊源。文章指出它可以追溯到 Kenneth Craik 在 1943 年的经典提议。在其著作《The Nature of Explanation》中Craik 认为心智通过运行现实的小比例模型来进行推理、预测与规划。这一思想深刻影响了后来的认知科学与人工智能研究。到了 1980 年代末和 1990 年代初随着神经网络研究的复兴这一概念被正式引入机器学习领域成为强化学习与机器人学中的核心术语。李飞飞团队强调当前被称为世界模型的各种技术实际上都是同一个 POMDP 闭环的不同投影每一种输出的是闭环中不同的组成部分。这一洞察为后续的功能分类奠定了坚实的理论基础。三、世界模型的三种功能渲染、模拟与规划基于 POMDP 闭环的分析文章将当前实际在落地的大部分世界模型技术划分为三个功能类别渲染器Renderer、模拟器Simulator与规划器Planner。三者的区分标准非常简洁——看其输出的是闭环中的哪个部分。这一分类法不仅具有理论上的优雅性也在实践中具备高度的可操作性。图4. 世界模型的三种功能投影渲染器输出观测像素模拟器输出状态几何与物理规划器输出动作决策序列图片来源什么值得买 / 原文整理3.1 渲染器以像素为语言追求视觉保真度第一类世界模型是渲染器。渲染器输出的是观测具体来说是面向人眼的像素其最重要的品质指标是视觉保真度。一个将文本提示转化为电影级航拍镜头的视频生成模型如 Sora、可灵、Runway Gen-3 等本质上就是渲染器像 Google 的 Genie 3 或 World Labs 自身的 RTFMReal-Time Foundation Model这样的交互式系统同样属于渲染器范畴它们根据用户输入实时生成可探索的画面。渲染器的核心特征在于其优化的目标是视觉可信度而非物理准确性。这类模型通常不具备对三维结构的显式理解它生成的是观看者会看到的画面而不是事物本身在三维空间中的真实样子。文章举了一个生动的例子航拍镜头里的城市建筑群从空中看也许完美无瑕但如果你在下面的街道中穿行就会发现这些建筑缺乏真实的几何结构无法支撑物理上合理的导航。这一局限性意味着渲染器虽然目前在商业化程度上最为成熟——大量图像或文本转视频产品正在消费与企业市场快速扩张Google 的 Nano Banana 模型甚至将渲染器级别的图像生成能力送到了数以亿计的用户手中——但其应用天花板也十分明显它们的输出很漂亮但你不能用它来设计一座需要承重计算的建筑也不能用它来训练一个需要在真实物理环境中行动的机器人。3.2 模拟器以几何与物理为基石追求结构准确性第二类世界模型是模拟器。模拟器输出的是状态一种在几何、物理或动力学上忠实的世界表征人类和计算机程序都能在其上进行计算与交互。与渲染器的纯视觉契约不同模拟器的契约是结构性的。它要求几何经得起检验——物体的边界不能自相交比例关系必须符合现实物理遵循牛顿定律与守恒方程动力学的行为符合材料力学与流体力学的预期。模拟器同时服务于两类用户。一类是专业人士建筑师、设计师、电影人、游戏开发者需要超越视觉可信度的准确性他们依赖模拟器进行结构验证、光照计算与物理特效仿真。另一类是计算机程序强化学习智能体、机器人控制器、自动驾驶车辆将模拟器当作训练场在其中大规模地与世界交互测试那些在现实中要么危险、要么昂贵、要么根本不可能执行的场景。文章特别指出模拟器工作在几何、物理和动力学的层面上它是结构性的骨架视觉表现供渲染器使用和动作后果供规划器使用都可以从中推导出来。掌握了模拟就同时拥有了渲染和规划的基础反过来则不行。图5. World Labs 的 Splat World 项目展示了高斯泼溅技术在 VR 环境中的应用体现了渲染与模拟融合的早期探索图片来源World Labs3.3 规划器以决策为目标追求行动有效性第三类世界模型是规划器。规划器输出的是动作。给定一个观测和一个目标规划器回答的核心问题是智能体下一步该做什么在很多意义上规划器是渲染器的逆过程——渲染器以动作为输入、产出观测规划器以观测为输入、产出动作从而闭合了完整的感知-行动回路。当前视觉-语言-动作模型Vision-Language-Action Models, VLA、基于模型的强化学习系统以及新涌现的世界动作模型World Action Models, WAMs都是规划器的不同技术尝试。它们的共同目标是让系统能够在非结构化的真实世界中决定机器人应该执行什么操作。文章指出规划器与快速演进的机器人学习领域密切相关。过去两年里该领域产出了不少在视频中看起来令人印象深刻的机器人操作演示。然而这些演示几乎全都局限于高度受限的实验室环境物体种类有限任务时长很短光照条件固定。它们尚未经受过真实世界部署所要求的复杂度、多样性与持续时长的系统验证。从一段精彩的演示视频到一个能在家庭厨房、工业仓库或医疗手术室中可靠工作的机器人系统中间仍然存在显著的工程鸿沟。渲染器 Renderer**输出**观测像素**目标视觉保真度代表Sora, Genie, RTFM优势商业化成熟用户基数大局限**物理准确性不足模拟器 Simulator**输出**状态几何/物理**目标结构准确性代表NVIDIA Omniverse, MuJoCo, Isaac Sim优势支撑渲染与规划的基础局限**3D数据稀缺计算成本高规划器 Planner**输出**动作决策序列**目标行动有效性代表VLA, WAMs, RT-2优势直接驱动具身智能局限**真实部署复杂度仍高四、模拟器被低估的关键枢纽与万亿级市场在渲染器、模拟器与规划器三者之中模拟器受到的公众关注最少却是李飞飞团队认为最为关键的一环。文章用相当大的篇幅试图纠正这种不对称的认知偏差。从商业维度来看模拟器所支撑的市场空间极其广阔。仅以 NVIDIA 的 Omniverse 平台为例其目标市场规模据该公司估计超过万亿美元涵盖智能制造工厂、仓储物流优化、供应链数字孪生、自动驾驶仿真测试等众多垂直领域。机器人训练、建筑可视化、工程设计验证、药物分子动力学模拟全都依赖于某种形态的物理准确模拟。渲染器虽然当前商业化程度最高但其天花板在于视觉美感无法替代物理正确性规划器虽然最令人兴奋但离大规模真实部署仍有距离。模拟器则恰好处于两者的交汇点是连接渲染与规划的桥梁。图6. NVIDIA Omniverse 数字孪生平台在数据中心热管理仿真中的应用展示了高保真物理模拟在工业场景中的价值图片来源NVIDIA Blog文章进一步阐述道如果说语言是对世界的抽象像素是对世界的投影那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上工作。一个掌握了模拟的模型能够将它的理解向上投射为供人类消费的逼真像素也能向下投射为供具身智能体使用的动作后果预测。而一个只掌握了渲染或只掌握了规划的模型无法同时完成这两项任务。这意味着模拟器在概念上具有基础性的地位——它是整个技术栈的枢纽节点。当然模拟器也是当前技术挑战最为集中的领域。文章坦诚地列举了多项关键难题首先带有显式几何、材质属性和物理标注的三维数据比渲染器训练所用的互联网视频数据稀缺了数个数量级。其次sim-to-real 差距——即模拟中的物体行为与真实世界中的行为之间的差异——仍然是机器人学中的经典难题。第三生成式模拟器引入了新的风险人工智能生成的几何体可能看起来正确但实际上包含自相交表面、错误比例或非流形结构导致物理模拟产生荒谬的结果。第四大规模的多物理场模拟——刚体、可变形物体、流体、布料全部同时交互——的计算成本仍然比单一领域模拟高出数个数量级。这些挑战的存在恰恰说明了模拟器领域的研究深度与技术壁垒。World Labs 的 Marble模拟器方向的实践探索作为文章理论框架的落地例证World Labs 介绍了其正在研发的产品 Marble。该系统接受多模态输入文本、图像、视频或空间草图生成可探索的三维环境同时输出用于视觉探索的高斯泼溅Gaussian Splatting表征和供物理引擎操作的碰撞网格。Marble 试图将渲染器与模拟器统一到一个模型中是 World Labs 在统一世界模型方向上的第一步。团队表示这只是一段漫长技术弧线的第一章随着渲染、模拟和规划之间的界限开始消融整个领域都在书写这一融合故事。五、边界消融统一世界模型的技术趋势文章指出当前世界模型领域最重要的趋势是渲染器、模拟器与规划器三个类别之间的边界正在开始消融。这一趋势背后的核心共识是渲染一个世界、模拟它、在其中行动所需要的底层知识在很大程度上是相同的。一个真正理解杯子如何放在桌面上的模型——包括它的几何形状、材质属性、对摩擦力和重力的响应方式——应该能够从任意角度渲染这只杯子模拟杯子被推动后会发生什么并规划一只手如何安全地把它拿起来。三个类别本质上是同一种底层世界理解的三种不同投影。图7. 统一世界模型的愿景一个基础模型能够根据下游需求在渲染、模拟与规划三种输出模态之间自由切换图片来源富途牛牛 / 原文整理文章列举了这一融合趋势的具体技术迹象。在渲染器与规划器的交叉地带已有来自不同机器人实验室的研究表明一个预训练的视频渲染器可以作为联合世界预测与动作预测的骨干网络让单一模型同时想象会发生什么和该做什么从而在渲染器与规划器之间架起桥梁。在渲染器与模拟器的交叉地带World Labs 的 Marble 已经能够从单一模型同时输出高斯泼溅和碰撞网格消解了传统上图形渲染与物理模拟之间的边界。在每一个层面系统都在从被动输出转向交互式智能渲染器变得可以响应动作条件模拟器生成的世界变得更加可控和可编辑规划器开始进行审慎推理而不仅仅是做出反应。从更宏观的视角来看这一融合趋势具有深远的技术史意义。文章回顾道从 1980 年代末至今这个领域押的始终是同一个赌注只要世界模型足够丰富智能体看见世界、构建世界、在其中行动所需的东西就全在里面了。这个赌注如今正在驱动一整代人的研究。而真正给它加上砝码的是已经在发生的产业融合渲染、模拟、规划三条线每条都已经各自撑起价值数十亿美元的产业它们起初是独立的研究方向现在开始汇到一起。当边界消失三者合流将重新定义一件更大的事机器智能与它所栖居的物理世界之间的关系也就是空间智能的长远走向。图8. 世界模型在游戏、机器人、自动驾驶与通用领域的发展路线图展示了从基础生成到条件生成再到世界模型的技术演进图片来源World Model Roadmap文章描绘的逻辑终点是一个统一的世界基础模型Unified World Foundation Model一个基础模型能够渲染照片级真实的视图、生成物理上准确的结构、规划动作序列并根据下游使用者的需求在不同输出模态之间自由切换。这一愿景与当前大语言模型LLM作为统一文本接口的成功形成了有趣的平行对照——正如 GPT-4 能够根据提示在翻译、摘要、编程与推理之间切换统一世界模型有望根据上下文在视觉生成、物理模拟与行动决策之间灵活适配。然而实现这一愿景仍面临一系列严峻挑战。数据格局的极不均衡是首要问题渲染器坐拥海量的互联网视频数据而模拟器和规划器则面临三维资产和机器人示范数据的严重匮乏。其次针对视觉美感的优化可能会牺牲机器人或高保真模拟所需的精度如何在单一架构内调和这些张力是核心开放问题。此外计算效率、实时性、多物理场耦合精度以及 sim-to-real 迁移的可靠性都需要持续的技术突破。文章表示这些挑战也是 World Labs 在持续演进 Marble 的过程中致力于解决的方向。六、结语从看见世界到理解世界文章以维特根斯坦《逻辑哲学论》中的名言开篇世界是所有发生的事情的总和。这一哲学基调贯穿全文——世界不是由文字构成的物理世界运行在完全不同的基底之上。语言模型赋予了机器对概念、词汇和推理的强大掌控力但物理世界无论虚拟还是真实遵循的是几何、物理与动力学的法则。语言模型学习的是文本的统计结构世界模型学习的是空间与时间的统计结构光如何落在一个表面上一座花园从一个从未被相机捕捉过的角度看起来是什么样子物体如何响应力并遵循物理定律。“语言给了机器一种谈论这个世界的方式。世界模型则是机器最终得以理解、想象、推理并与之交互的途径。”李飞飞团队提出的功能分类法——渲染器、模拟器、规划器——为当前喧嚣的世界模型讨论提供了一个难得的清晰透镜。它既不贬低任何一条技术路线的价值也不夸大某一方向的短期潜力而是诚实地指出各自的优势、局限与相互依赖关系。在这一框架下研究者可以更容易地定位自己的贡献产业界可以更清晰地评估技术投资的优先级而整个社区则可以朝着统一世界模型的长远目标协同前进。从 Sora 的惊艳亮相到机器人演示的频繁刷屏从 NVIDIA Omniverse 的工业落地到 World Labs Marble 的技术探索世界模型正在从学术概念快速演变为产业现实。而李飞飞团队的这篇文章提醒我们在这一波技术浪潮中概念的精确性同样重要。只有当渲染、模拟与规划各自归位并走向有机融合机器才能真正从看见世界迈向理解世界空间智能的下一个前沿才会真正打开。参考文献Li, F. F., et al.A Functional Taxonomy of World Models. Substack, 2026. https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html