李飞飞看不下去了，亲自下场“辟谣”世界模型-尧图企业网站定制

世界模型这个词被滥用了。今日斯坦福大学教授、空间智能创业公司World Labs联合创始人兼CEO李飞飞Fei-Fei Li与团队发布新文章《世界模型的功能分类》系统拆解了当下被广泛使用却释义混乱的“世界模型”。文章指出计算机视觉、机器人、强化学习和生成式AI各领域的人士都宣称其在研发世界模型但各方所指内涵截然不同。李飞飞试图从强化学习经典的POMDP部分可观测马尔可夫决策过程框架出发为这一概念建立清晰的功能分类体系。李飞飞将世界模型归纳为渲染器renderer、仿真器simulator、规划器planner三大功能类别并重点论证了在三者中受关注度最低的仿真器恰恰具备最深远的产业价值与最棘手的技术难题。她进一步提出三类模型底层共用同一套世界知识当前最重要的趋势是三者边界正不断消融最终将走向能够灵活切换输出形式的大一统世界基础模型。▲李飞飞发布《世界模型的功能分类》文章推文图源X李飞飞在文中提出了以下几个核心观点1、世界模型已成为AI领域最重要、也最被滥用的术语之一各领域所指内涵截然不同亟需精准定义。2、世界模型的技术定义源自强化学习的POMDP框架即智能体、动作、环境状态、观测信息构成的交互闭环各类世界模型本质都是这套闭环的不同实现方向。3、世界模型可分为三大功能类别渲染器输出供人观看的像素画面、仿真器输出贴合客观规律的环境状态、规划器输出智能体的动作指令。4、三类模型底层并不割裂几何、物理、动力学这套描述世界运行逻辑的基础知识是三者共用的底层原理。5、渲染器商业化最成熟但能力有上限规划器前景最受期待但尚处起步阶段仿真器关注度最低却是衔接二者的桥梁与核心支柱。6、仿真赛道集中了AI领域的诸多棘手难题包括三维数据稀缺、仿真与现实的域差、生成式仿真的几何隐患、多物理场仿真的高算力成本等。7、当前最关键的发展趋势是三类模型相互融合技术演进的终极形态是能根据下游需求灵活切换输出形式的大一统世界基础模型。8、在同一套模型架构中平衡各项需求是当前世界模型领域最核心的攻关课题。以下是对李飞飞《世界模型的功能分类》的全文编译01 世界并非由文字构筑而成在此前的文章中我们提出空间智能是AI的下一前沿方向而世界模型是实现空间智能的必经之路。本篇我与World Labs团队将进一步深挖当下大量被研发、冠以“世界模型”之名的各类产物中究竟由哪些功能模块构成了世界模型的核心能力各个模块又分别承担何种作用大语言模型让机器拥有了出众的概念理解、词汇运用与逻辑推理能力但无论是现实物理世界还是虚拟世界都依托另一套底层规律运行。语言模型学习文本的统计规律世界模型则学习时空的统计规律光线如何落在物体表面、不在相机拍摄视角下的花园是什么模样、物体受外力后如何运动并遵循物理定律。这也让“世界模型”成为当下AI领域最重要、同时最被滥用的术语之一。计算机视觉、机器人、强化学习、生成式AI各领域人士都宣称在研发世界模型但各方所指内涵截然不同。能生成绚丽却违反物理规律的火焰的视频模型、能即兴生成游戏的语言模型、能精准模拟燃烧过程的物理引擎如今都被装进“世界模型”这同一个筐里。古希腊学者始终无法统一世界的本源究竟是火、水还是不可分割的原子根源在于“世界”从来没有唯一定义它只是研究者为了推演论证对其所研究的完整客观存在的代称。如今AI领域在亟需精准定义的关键阶段承袭了这一难题。02 分类体系底层的交互闭环想要厘清概念乱象可以从一张早于所有相关技术的经典原理图入手。数十年来包括Sutton和Barto编写的经典教材在内的各类强化学习教科书都在用这套图示描述智能体与环境的交互逻辑。该框架的标准名称为部分可观测马尔可夫决策过程即POMDP而“世界模型”最初的定义便诞生于这套理论体系。智能体可以是人类、机器人或是软件系统它会执行动作动作改变环境状态。智能体无法直接观测完整环境状态只能获取观测信息射入视网膜的光子、传感器传回的读数、视频画面中的像素。新的观测结果指导智能体生成新动作循环往复形成闭环。“状态”一词需要拆解释义它在不同学科中定义不同。此处并非化学领域固液气三态的概念而是物理与机器人学定义的状态对某一时刻客观环境的完整描述囊括所有物体的位置、速度与各类属性。环境状态是客观世界的底层全貌理论上信息完整但身处其中的智能体无法直接全盘获知。观测是智能体对客观世界的局部感知动作则是智能体基于感知做出的反馈行为。从智能体、动作、环境状态再到观测信息、最终回馈智能体的这套闭环奠定了现代“世界模型”的技术定义。事实上“世界模型”这一说法本身历史更为悠久。它最早可以追溯到1943年肯尼斯·克雷克Kenneth Craik提出人脑依靠构建现实的“微型模型”完成逻辑思考。上世纪80年代末至90年代初克雷克的理念被引入神经网络研究。这套闭环同样能解释当下五花八门的世界模型如今各类冠以世界模型的产品本质都是这套闭环的不同实现方向各自只输出闭环中的某一部分信息。03 世界模型的三大功能分类第一类世界模型是渲染器。渲染器以像素画面的形式输出可供人类观看的观测信息核心评判标准是视觉还原度。能够依据文本提示生成电影级航拍画面的视频模型属于渲染器Google的Genie 3、World Labs自研的RTFM这类根据用户输入实时生成画面的交互式系统同样归为此类。这类模型并不具备对三维结构的显性认知它只生成人类肉眼所见画面而非客观真实结构。航拍镜头里的建筑从上空看毫无破绽但如果驾车穿行城下建筑结构就会出现崩坏。第二类是仿真器。仿真器输出环境状态在几何、物理、动力学层面贴合客观规律的环境表征可供人类与计算机程序运算、交互。渲染器只需要满足视觉效果仿真器则要恪守结构真实性几何结构经得起校验、物理规则符合牛顿定律、物体动力学表现贴合现实规律。仿真器同时服务两类使用者建筑师、设计师、影视与游戏开发者等从业者需要远超视觉逼真度的精准环境强化学习智能体、机器人控制器、自动驾驶等程序则将仿真环境当作规模化训练场地用以测试现实中危险、成本高昂或是无法落地的场景。第三类是规划器。规划器输出动作指令依托观测信息与预设目标给出智能体下一步的行动方案。从逻辑上看它和渲染器互为逆过程。渲染器输入动作、输出观测画面规划器输入观测信息、输出动作指令补齐感知与动作的闭环链路。视觉-语言-动作VLA模型、基于模型的控制系统以及新近兴起的世界动作模型World Action Models都属于规划器方向这类系统能够为非结构化环境中的机器人制定行动策略。当下落地量产的绝大多数世界模型产品都可以归入这三类在实际应用中这套划分方式具备实用价值但三类模型底层并非割裂。几何、物理、动力学这套描述客观世界运行逻辑的基础知识是三者共用的底层原理。理论上能够从任意视角渲染杯子的模型也可以仿真杯子被推倒后的状态、规划机械手抓取杯子的动作。当下前沿研究正不断打破三类模型的边界。▲World Labs世界模型三大功能模块拆解示意图图源World Labs04 仿真为何是核心支柱在三类模型中仿真器受到的大众关注度最低却具备最深远的产业价值本文将就这种关注度与重要度失衡的现状展开论述。渲染器是商业化落地最成熟的品类多款文生图、文生视频产品正快速渗透消费级与企业级市场。谷歌的Nano Banana模型将高质量图像生成能力带给了数以亿计的潜在用户。无论是技术本身还是相应的市场需求都已经得到了充分验证。但渲染器以视觉逼真度为优化目标不追求物理精准性这成为它的能力上限生成画面观感出众却无法被用于建筑设计、机器人训练等需要严谨物理逻辑的场景。规划器发展前景最受期待但技术尚处在起步阶段和高速发展的机器人学习领域深度绑定。近两年来机器人相关演示视频效果亮眼但客观来看绝大多数演示都局限在条件严苛的实验室环境中操作物品种类有限、任务流程简短还无法满足真实落地所需的环境复杂度、场景多变性与长时间稳定运行要求。从实验室演示到能在厨房、仓库、手术室稳定作业的商用机器人中间仍存在巨大技术鸿沟。不过资本对规划赛道投入巨大一批资金充裕的创业公司争相落地通用规划系统头部基础设施厂商也选择在仿真技术栈之上搭建规划能力。能够自主规划的机器人才具备实用价值全行业都在争先攻克这项技术。仿真技术是衔接渲染与规划的桥梁。如果说语言是世界的抽象概括、像素是世界的视觉投影那么几何、物理与动力学规律就是世界本身。仿真器立足客观规律搭建底层结构渲染所需的外观画面、规划所需的动作结果都能从这套结构中衍生而来。掌握仿真能力的模型既可以把对世界的理解转化为可供人类观看的像素画面也能为实体智能体预判动作结果而仅专攻渲染或规划其中一项的模型则无法兼备上述两项能力。仿真的商业化市场空间十分庞大仅英伟达的Omniverse其面向工厂、仓储、供应链、数字孪生的潜在市场规模就被公司预估超万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程研发、药物研发等领域全都离不开仿真技术。AI领域诸多棘手的待解难题也集中在仿真赛道。标注了几何结构、材质属性、物理参数的三维数据集体量远少于渲染模型训练所用的互联网视频素材。仿真与现实间的域差问题始终难以根除。生成式仿真还新增一项隐患AI生成的几何模型看似正常实则可能存在面相交、尺寸失真问题进而导致物理运算结果违背常理。能够同时实现刚体、柔体、流体、织物交互的大规模多物理场仿真算力成本远高于单一物理场景仿真。World Labs推出的Marble是我们布局仿真领域的首款产品。该产品接收文本、图片、视频、空间草图等多模态提示词生成可交互探索的三维环境同时输出用于视觉浏览的高斯泼溅数据、可供物理引擎运算的碰撞网格。不过随着渲染、仿真、规划的边界不断消融Marble只是全行业技术演进长周期的开端。05 边界消融的现状与未来发展方向行业的技术变革还在持续推进当下最关键的发展趋势是三类模型正在相互融合。业界逐渐达成共识实现环境渲染、物理仿真、动作规划所依托的底层世界知识高度同源。沿用前文杯子的例子真正掌握杯子在桌面的几何形态、材质、受力规律的模型既能从任意角度渲染杯子画面也能仿真杯子被碰倒的全过程还能规划机械手抓取动作。三类应用只是同一套底层世界认知的三种落地形式。▲大一统世界模型架构图图源World Labs举个例子多家机器人实验室近期已有越来越多研究证实从理论层面预训练视频渲染模型可作为环境与动作联合预测的底层基座用单一模型预判环境变化与对应动作打通渲染器和规划器的技术壁垒。World Labs的Marble已实现单模型同时输出高斯泼溅画面与碰撞网格打破渲染器和仿真器的界限。全品类产品都在从被动生成输出转向交互式系统渲染器开始支持根据动作指令生成画面仿真器产出的环境可调控、可修改规划器也从被动应激式决策升级为自主推演式决策。技术演进的终极形态是大一统世界基础模型单一基座模型既能生成照片级渲染画面、输出符合物理规律的环境结构又能生成动作序列可根据下游需求灵活切换输出形式。不过落地之路仍有重重挑战各类模型数据储备不均衡渲染模型坐拥海量互联网视频素材仿真与规划模型却紧缺三维资源与机器人实操数据优先优化视觉效果往往会损耗机器人、高精度仿真所需的物理精度。在同一套模型架构中平衡各项需求是当前世界模型领域最核心的攻关课题这也是World Labs迭代升级Marble的核心目标。但行业发展方向已然明晰。从上世纪80年代末延续至今的行业核心猜想正驱动着新一代科研攻关只要构建足够完备的世界模型智能体就能够感知、搭建环境并在其中自主行动。这份猜想的落地底气源自三大技术路线的融合趋势原本各自独立研发、且均已催生千亿级产业的渲染、仿真、规划赛道正逐步融为一体。随着三者边界彻底消融它们将重塑更深层的产业格局机器智能与客观物理世界的交互关系推动空间智能完成漫长的产业进化。语言让机器拥有了描述世界的能力而世界模型终将让机器真正理解、构想客观世界并与之推演、交互。原文链接李飞飞看不下去了亲自下场“辟谣”世界模型-36氪

相关新闻

Function Calling 与 MCP 深度对比：从原理到实践，一文讲透区别与关系

斯坦福李瑞江团队在Nat Med发表能够融合病理切片与虚拟CODEX染色的多模态医学AI框架

Kafka和RedPanda

告别模拟器！鸿蒙开发必备：5分钟搞定HAP包重构与文件清理的正确姿势

告别重复劳动：用Power Automate桌面流，5分钟搞定Excel数据自动录入数据库

逆序对不止归并：树状数组、线段树解法横向评测与选型指南

告别安装包：为你的麒麟系统量身定制一个轻量级Qt5.12开发环境

别再到处找数据了！手把手教你用Python一键下载并预处理UCR时间序列128个数据集

MLOps模型部署落地全景图：从服务化到可观测性的工程实践

NomNom终极指南：深度解析《无人深空》最完整存档编辑器的技术实现与实践应用

终极宝可梦3DS ROM编辑器：重新定义你的宝可梦冒险体验

基于YOLOv5的智能象棋AI连线工具：让普通玩家也能拥有大师级棋力

陪诊小程序开发玩法分析：全流程就医服务架构、匹配机制与落地方案

从“大通铺”到“写字楼”的链路层进化史

RAG 召回质量治理：用 Go 构建可调试的切片、检索与重排链路

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定