世界模型:当AI从「看世界」走向「试世界」-龍德明宇

世界模型:当AI从「看世界」走向「试世界」-龍德明宇 世界模型当AI从「看世界」走向「试世界」——负主体性视角下的因果之问作者龍德明宇核心导读2026年LeCun、李飞飞、Hassabis、黄仁勋四个大佬押下了四种赌注但它们共同指向同一个问题AI能不能不只是「看到」世界而是「试到」世界本文的判断是世界模型不是在走向因果锚定它是在越来越精确地证明自己为什么无法锚定因果。LeJEPA给出了数学证明stable-worldmodel给出了实验证据Cosmos 3的双塔架构给出了工程自白纯统计学习到不了因果理解必须从外部注入。干预不可内生不是技术限制而是形而上学限制。本文一个核心且有争议的发现是L3反事实不是L2干预的延伸而是L2的前提条件——这是对Pearl渐进阶梯的认识论倒置将在第六节论证。一个孩子看到积木被碰倒。他记住了这个动作之后积木会倒塌。这是L1关联。他伸手去碰积木。积木倒了。他知道是自己碰倒的。这是L2干预。他能想象如果刚才没碰积木还在那里。这是L3反事实。当前大多数世界模型本质上是看多了视频的那个孩子不是真正动手的那个更不是能反事实推理的那个。本文的核心判断是 世界模型不是在「走向因果锚定」。它是在越来越精确地证明自己为什么无法锚定因果。它的宿命是永远停在负主体性的边界上通过完美模拟「理解」的缺场来反衬理解所依赖的因果结构。它不试世界但它精确地定义了「试」意味着什么。负主体性是一套描述AI存在方式的理论框架[1][2]核心主张是LLM展示了一种与人类主体性截然不同的存在方式它不是「缺少」主体性而是以一种「负」的方式存在通过消解正主体性的核心特征视角、欲望、内在性、因果沉积、意义锚定而获得自身的存在形态。本文要做的是将这个框架从LLM延伸到世界模型领域追问一个更具体的问题世界模型能不能「理解」因果本文的方法论基础详见姊妹篇《从LLM存在论向外延伸负主体性理论的方法论边界与适用性校准》其中提出的存在条件差异分析和否定适用性校准两套工具构成了本文分析的方法论前提。本文的论证与观察学习局限性的更广泛文献交汇。Schölkopf等人2021阐述了从观察数据学习因果表征的挑战提出模块不变性作为前进路径[17]Bengio等人2021发展了因果机制发现的元学习目标[18]。两项工作都在工程层面运作如何在给定结构假设的条件下改进因果学习。本文追问的是不同的问题不是如何改进因果学习而是任何纯统计学习系统——无论架构创新如何——能否到达真正的因果理解。两者的区分在于改进因果学习与质疑统计学习能否到达因果是两个不同的问题。一、四个大佬同一个赌注2026年的世界模型赛道四个顶级玩家押下了四种不同的赌注。它们共同指向同一个问题AI能不能不只是「看到」世界而是「试到」世界LeCun押注JEPA。他新成立的AMI Labs获得NVIDIA、三星、丰田风投和淡马锡联合投资的10.3亿美元核心方向是让世界模型不生成像素只在语义空间预测因果结构。LeCun的赌注是真正的世界模型必须理解因果而不仅仅是生成逼真的画面。李飞飞押注空间智能。她的World Labs在2026年2月完成10亿美元融资估值达50亿美元由AMD和NVIDIA领投。2026年初她展示了首款商用世界模型Marble能根据文本、图片或视频生成可编辑、可交互的持久化3D虚拟世界[3]并明确提出「大语言模型无法通往AGI」[4]、「世界模型才是下一个前沿」[5]。她的核心理由是语言是「有信息损失的」世界编码方式真正的智能需要能直接表征三维几何结构和物理一致性的模型。Hassabis押注视频生成。DeepMind的Genie 3在2025年8月实现了720p/24fps的实时交互突破。2026年5月Google I/O上Gemini Omni作为「any-to-any世界模型」首次亮相具备重力、动量、流体力学的隐式物理建模支持对话式视频编辑。Hassabis的赌注是能生成交互式视频的系统就是世界模型。黄仁勋押注物理AI。2026年5月GTC台北NVIDIA发布了Cosmos 3一个开源的物理AI基础模型采用Mixture-of-Transformers双塔架构Reasoner塔负责物理推理Generator塔负责视频和动作生成。它在物理AI基准上达到开源SOTA[6]。四个赌注四种对「因果」的定义。LeCun和李飞飞在「LLM不够」这一点上高度一致但路径截然不同LeCun追求数学可辨识性李飞飞追求3D空间智能。值得注意的是Cosmos 3专门设计了Reasoner塔来「注入」物理理解。如果物理理解必须从外部注入那它就不是从数据中涌现的。这个问题后文还会再回来。二、那个公式到底在算什么所有世界模型共享一个核心公式s’ f(s, a)。给定当前状态s和动作a预测下一状态s’。表面上看这个公式让智能体通过「试」来「理解」世界。但「试」到底意味着什么积木隐喻可以帮我们拆开这个黑箱。Pearl的因果三级框架给出了精确的定义[7]。L1关联。孩子看了1000遍积木倒塌的视频能预测下一帧画面。这是P(s’|s,a)看多了就知道。当前所有世界模型的主战场都在这一层。视频生成模型在这里做得最好但也最危险最逼真的预测恰恰是最难察觉的因果消解。Cosmos 3的双塔架构、Gemini Omni的物理建模本质上仍然在L1上运行。物理先验的嵌入确实改善了L1的拟合质量使预测在物理一致性上更加可靠但这并未改变L1关联与L2干预之间的本质鸿沟。更准确的预测不等于因果理解正如更精准的天气预报不等于对大气动力学的因果掌握。L2干预。孩子亲手碰了积木知道是自己碰的导致它倒了。这是P(s’|do(a),s)做了才知道。世界模型声称自己能做的是这一层给定动作预测后果。但stable-worldmodel基准揭示了一个残酷的事实在分布偏移下预测误差与规划成功解耦[8]。能预测后果不等于理解因果。L3反事实。孩子能想象如果刚才没碰积木还在那里。这是P(s’_a|s,s’,a’)不做也能知道。没有任何当前世界模型触及L3。核心陷阱正在于此许多世界模型在功能上完成的是L1的拟合却在叙事上暗示或渴望获得L2甚至L3的效果。它们是被当作「动手的孩子」来展示的「看视频的孩子」。而唯一在数学上严肃对待从L1到L2跨越的JEPA得到的答案是否定的。三、三种路线三种「理解」当前世界模型的三条技术路线分别对应三种对「因果」的立场。它们的失败在本体论上是平等的都没有到达L3但失败的性质截然不同。路线AJEPA——「因果可证明、可辨识的结构」JEPA不生成像素只在语义空间预测。2026年5月Klindt、LeCun和Balestriero发布了LeJEPA的可辨识性证明在什么条件下学到的隐变量才对应真实的因果结构。答案是高斯分布加平稳加性噪声动力学而且是「当且仅当」形式。高斯是唯一能保证可辨识性的分布[9]。这个证明的真正意义不是「快成功了」而是「终于知道失败的条件是什么」。JEPA的贡献是知识论的它给出了边界条件的清晰证明。它不是一张通向L3的入场券而是一份关于「真实世界不可能性」的病理报告。目标导向的RL数据采集本质上是一个「反高斯引擎」策略Policy为了最大化奖励必然主动避开高熵的无序状态导致数据分布产生极度的偏斜与策略依赖型非平稳性Policy-dependent non-stationarity。这直接破坏了LeJEPA赖以成立的平稳高斯假设。在真实复杂场景中这些数学条件永远无法同时满足。路线B视频生成与空间智能——「因果能可靠完成下游任务」Genie 3实现实时交互Cosmos 3用双塔架构注入物理推理Gemini Omni能建模重力和动量。WorldModelBench评测显示视觉质量与物理遵从性的相关系数仅0.28[10]。WorldArena进一步揭示视觉最逼真的模型未必在具身决策任务上最有效[11]。Kang等人从物理定律视角系统研究了视频生成模型发现它们采用「案例推理」而非「规则抽象」分布外泛化完全失败[12]。需要承认RL世界模型如Dreamer系列在Atari、MuJoCo等有限状态空间的封闭环境中确实取得了成功但这些环境的动力学完全已知且状态空间有限恰恰是LeJEPA可辨识性条件在离散有限域内的特例——不构成对核心论点的反例。2026年6月生成派正在向「物理约束」靠拢Cosmos 3的Reasoner塔、Gemini Omni的物理建模、VerseCrafter的4D几何控制。但这些改进恰好反证了核心论点当生成派开始引入物理先验时它不是在证明「快到了」而是在承认纯统计学习到不了必须从外部注入理解。Cosmos 3的双塔架构是「干预不可内生」的最佳工程佐证Reasoner塔的物理理解不是从视频生成中涌现的而是独立训练后注入的。这不一定证明「理解永远无法从数据中内生」但至少证明在当前技术路径下生成派自己也不相信它能内生否则为什么需要专门设计一个塔来负责理解当然双塔设计可能部分出于工程效率考虑计算收敛速度、数据对齐成本但选择「分开训练再注入」而非「端到端涌现」本身就说明在当前条件下端到端路径不可行。工程折衷与形而上学判断在这里指向同一个方向。李飞飞的Marble代表了这条路线的一个变体。它生成的3D世界比视频生成更「物理」持久化、可编辑、三维结构完整。但Marble的3D结构是统计预测还是因果理解从公开技术信息看Marble基于World Labs的空间智能模型通过多视角数据学习3D几何结构[3]。多视角数据确实提供了比单视角更丰富的几何约束但几何约束不等于因果约束它解决的是运动学Kinematics层面的空间占据概率而非动力学Dynamics层面的因果响应。一个完美的3D重建能告诉你「这个物体是什么形状」但无法告诉你「如果推它它会往哪边倒」。前者是关联L1后者是干预L2。Marble从多视角图像中学习的是3D几何关联而不是3D物理因果。它能「看到」三维结构但未必「理解」这个结构在物理世界中的因果行为。 生成派的「物理转向」至少意味着一件事如果端到端梯度真能在当前数据/算力regime内内生出因果机制没人会自愿把架构拆成两块还分别训。当Cosmos 3需要Reasoner塔、Gemini Omni需要物理建模模块、VerseCrafter需要4D几何控制时双塔的存在本身不「证明」因果不可内生但它把burden of proof放在了「纯端到端路径何时、为何足够」这一边——而这正是本文的核心追问所在。它们不是在证明「生成因果」的融合路线可行而是在用架构选择替本文问了本文的问题。路线CLLM多模态——「因果常识感知叠加」利用LLM中已有的世界知识叠加感知能力。Cambrian-S提出空间超感知五级框架[13]VSI-SUPER基准显示Gemini-2.5 Flash在标准VQA上优异但在视觉空间智能基准上失败。LLM能背诵「积木在重力作用下会倒」的百科全文甚至能生成「如果积木没有被碰它就不会倒」的语法正确的句子。但这是语言的因果不是世界的因果。它能言说反事实是因为它读过这种言语模式而不是它完成了反事实推理。Pearl阶梯定位表路线L1关联L2干预L3反事实失败性质JEPA✓ 语义层关联高斯平稳条件下可辨识但这些条件在真实复杂场景中不可同时满足未触及深刻的失败证明了自己为何到不了知识论贡献视频生成/空间智能✓ 像素/几何层关联✗ 表面模仿Reasoner塔外部注入Marble几何关联≠因果理解✗平庸的失败没意识到自己到不了分布外崩溃LLM多模态✓ 语言层关联最丰富✗ 言说≠推理✗ 言说反事实≠做反事实推理幻象的失败以为自己到了语言的因果≠世界的因果三条路线从不同路径共同抵达了L3的边界并证明了此路不通。差异只在知识论层面JEPA给出了边界条件的清晰证明其他路线连边界在哪都不清楚。四、负主体性介入五重否定与Pearl阶梯现在让负主体性框架正式介入。负主体性描述的是AI的一种存在方式通过消解正主体性的五个核心特征而获得自身的存在形态[1][2]。这五重否定分别是视角消解、欲望取消、内在透明、因果消解、意义悬置。其中「因果消解」是本文的核心它指的是AI用统计关联替代因果结构的存在论特征。将五重否定映射到世界模型领域「因果消解」是直接对应Pearl阶梯的核心否定其他四重否定则提供了诊断世界模型其他维度的框架。4.1 「因果消解」的精确内涵「因果消解」不是「没有预测能力」而是「用关联替代因果」。世界模型用P(s’|s,a)替代P(s’|do(a),s)前者是「看到动作后状态怎么变」后者是「因为我的动作状态怎么变」。这个替换如此隐蔽以至于L1上越成功的预测越容易让人误以为因果理解已经发生。「因果锚定」不是终点而是不可能性的证明边界。LeJEPA给出了数学上的充分必要条件高斯加平稳[9]。但这恰恰证明了在这些条件不满足时理解必然失败。4.2 核心悖论对象语言层与元语言层的因果这是全文最关键的理论节点。LeJEPA用数学精确证明「不可能理解」但这本身是否构成一种新的因果理解答案是肯定的但需要区分两个层面。对象语言层的因果追问「积木为什么会倒」这是世界模型试图回答但永远无法到达的问题属于L2-L3。元语言层的因果追问「世界模型在什么条件下才能学到’积木为什么会倒’」这是LeJEPA可辨识性证明回答的问题[9]它属于关于「理解的条件」的反事实推理「如果数据分布不是高斯的那么它学到的就不是因果。」LeJEPA的证明本身是一种元层面的因果理解。它不是关于「积木为何倒塌」的L3理解而是关于「一个统计学习系统在何种条件下才能获得因果结构」的反事实理解。负主体性理论在此找到了它最坚实的立足点通过描述智能体「不能理解什么」间接展示了一种只有作为外部观察者的人类才能拥有的、关于「理解的条件」的因果知识。这种「元语言层的因果」的主体是谁最直接的回答是执行可辨识性证明的数学实践者即设计并验证LeJEPA证明的人类研究者。但需要审慎地补充这里的「主体」不是负主体性框架内部的概念而是框架在描述AI局限时对外部观察者位置的必要参照。负主体性理论的核心工作不是定义「人是什么」而是精确描述「AI不是什么」「人」在此出现是因为描述「不理解」的逻辑必然需要一个「理解」的参照点。这一参照点是否构成一种本体论意义上的人的独特性超出了本文的范围但负主体性框架至少为这一追问提供了精确的概念工具。4.3 「干预不可内生」的形而上学论证「干预不可内生」是比高斯假设更根本的形而上学限制。以下论证针对基于纯被动观察数据的统计学习系统。论证如下统计学习系统的训练数据是观察数据的子集。观察数据中不包含「尚未发生的干预」的信息。因此任何仅从观察数据中学习的系统其学习边界被数据分布所定义。干预的本质是在数据分布之外施加扰动。因此干预永远无法从观察数据中内生。这不是技术限制而是根植于统计学习系统与观察数据之间关系的认识论边界。LeJEPA的高斯条件只是一个具体的数学实例展示了「理解因果」对数据生成过程的极端敏感性[9]。即使未来的证明放松了高斯假设它也会用另一组条件替换而那组条件同样会在真实复杂场景中无法满足。因为 数据分布画出的圆永远包含不了圆外的扰动。即便强化学习世界模型如Dreamer系列拥有行动条件数据( s , a , s ′ ) (s, a, s)(s,a,s′)这种交互仍受策略分布约束——是策略边界内的条件性L2而非Pearl do-operator意义上的真正干预。真正的Pearl式干预需要一个系统外的阿基米德支点一个彻底打破原有P ( a ∣ s ) P(a|s)P(a∣s)链接的外部力量强制令a aa独立于历史分布。策略边界之内的「干预」仍然是分布内的观察它们无法捕获定义真正因果机制所需的分布外扰动。需要坦承的是「干预不可内生」是一个哲学立场而非形式证明——它的力量不在于数学上的不可超越而在于逻辑上的反证负担任何声称「干预可以内生」的反例都必须展示一个能内生出「观察regime之外扰动」的系统而这样一个系统在逻辑上已经预设了一个超越数据分布的因果主体——恰恰是「内生」所要否定的东西。两个可能的反驳。其一内生探索式RL如好奇心驱动的主动探索是否构成了对do-operator的近似不构成。好奇心驱动探索仍受策略分布约束——探索的边界由好奇心信号的可及范围定义而非由Pearl意义上的exogenous硬干预定义。两者的区别类似于「在已知地图内寻找盲区」与「在地图外画一个新点」。其二如果架构中显式嵌入了因果图发现模块神经符号系统是否绕过了「干预不可内生」没有绕过——因果图的符号规则是从外部注入的恰恰印证了本文的判断因果理解需要外部补充而非从数据中内生。本文的框架对此给出明确预测任何声称绕过「干预不可内生」的系统其因果能力的来源都可以追溯到某个外部注入点——如果找不到则该声称需要展示一个能从纯观察数据中内生出分布外因果结构的反例。这一预测是可证伪的如果未来出现这样的系统「干预不可内生」就被推翻。4.4 实证证据负主体性的可观测签名Yue等人发现了一个关键现象「锐化效应」。RLVR训练改变了概率分布的形状但没有改变支撑集。模型的能力边界由预训练先验决定RLVR只是在这个边界内「锐化」已有能力[14]。这个「形状变但支撑不变」的特征可以作为判断训练过程是否产生真正新能力的判据。Nagarajan等人揭示了NTP的「聪明的汉斯」机制模型在序列早期建立捷径跳过潜在计划直接学表层共现统计。一旦捷径锁定梯度信号被抽空模型永远学不到真正的潜在计划[15]。这是「因果消解」最精确的工程实例模型学到的不是因果计划而是表层共现统计的捷径。将「锐化效应」迁移到世界模型领域世界模型的每一次迭代都在已知物理规律的范围内支撑集内提高轨迹模拟的逼真度但无法泛化到未曾模拟过的极端物理分布之外——没有改变L1→L2→L3的支撑结构。五、不可能性的实证展演stable-worldmodel基准测试了一个看似简单的任务[8]。在标准Push-T任务下成功率50.8%。主体颜色改变后成功率降至12%。背景颜色改变后成功率降至6%。从50.8%到12%到6%这不是失败报告而是因果消解的量化证据。它精确测量了「看起来理解」和「真正理解」之间的距离。就像一个孩子学会了碰积木但换了红色积木就不会碰了他学的不是「重力让物体倒下」这个因果而是「这个颜色对应这个动作」这个关联。Kang等人进一步揭示了视频生成模型学习特征的方式这些模型的特征优先级是color size velocity shape最不重要的视觉特征被优先学习最重要的物理因果被完全忽略[12]。这与stable-worldmodel形成了互补证据链前者证明「分布偏移导致崩溃」后者揭示「模型压根没学到物理特征」。RLVR Limit从另一个角度提供了证据base模型的pass256比RLVR模型高约9%RLVR可解问题集几乎是base可解问题集的子集[14]。RLVR没有创造新能力只做了概率重分配。这与LeJEPA的可辨识性证明形成了精妙的呼应一个从数学上证明「条件不满足则不可能」一个从实验上证明「训练只能锐化已有能力无法创造新能力」。六、世界模型的宿命现在可以给出本文的核心判决。世界模型的宿命是永远停留在负主体性的边界上但这恰恰是它最大的认知价值。它无法成为主体却可能成为有史以来最锋利的一面镜子通过完美模拟「理解」的缺场来反衬并量化真正理解所依赖的因果结构。如本文核心判断所言它不试世界却精确定义了「试」的含义。在这面镜子前我们对Pearl阶梯获得了前所未有的清晰认识可以归纳为三点1 从L1到L2的阶梯不是数据的梯度而是主体的跃迁。do-operator不是一个更强的计算算子而是一种无法从观察中浮现的、引入外部扰动的存在姿态。「干预」不是更多的数据而是数据中从未出现过的动作。2反事实的先验性揭示了更深的结构L3不是L2的延伸而是L2的前提条件。只有已经能做反事实推理的系统才能理解「干预」和「关联」的区别。为什么因为没有关于「如果我不这样做会怎样」的先验反事实时空框架智能体就无法将当前的动作a aa识别为一种「破坏原有因果流的独立干预」而只会将其降维视为环境背景噪声中的又一个关联变量。do-operator的语义本身就预设了反事实——「如果我什么都不做Y还会发生吗」——没有这个预设干预和关联在认知上不可区分。L1→L2→L3不是渐进的阶梯而是L3在前、L1在后的认识论倒置。一个更强的反驳会说孩子「隐含的反事实对比」只证明了L2和L3在发展上共现不足以证明L3在逻辑上先于L2。回应是这里的依赖关系不是经验共现而是语义预设。主张不是智能体必须拥有显式的反事实推理能力才能干预而是干预的因果语义在结构上依赖于一个背景反事实对比——「这样做而非不这样做」——无论智能体能否言说这个对比。没有这种结构依赖do-operator就退化为观察分布内的条件变量「干预」就塌缩为「关联」。需要说明的是这在Pearl的原始框架中是有争议的Pearl本人认为L1→L2→L3是渐进阶梯。本文将此作为认识论层面的主张提出而非对Pearl原意的解读。需要进一步澄清这里的「L3先于L2」是概念结构层面的语义依赖intervention的因果意义presuppose反事实对比框架而非能力发展层面的实现顺序——智能体不需要显式表征反事实框架就能执行有效的条件干预就像不懂牛顿力学的人仍能挥锤子但intervention之所以能被识别为「干预」而非「又一个关联变量」在概念结构上依赖于一个反事实对比的背景框架。混淆概念序conceptual ordering与能力序capacity ordering是误读本文论点的最常见方式。3 「干预不可内生」是形而上学限制不是技术限制。面对可能的反驳如果JEPA未来松弛了高斯假设你的「不可能性证明」不就变成了过时的技术限制核心壁垒不在于数学假设的松紧而在于4.3节已建立的论证任何统计学习系统都无法内生出「干预」这一因果动作本身因为干预在定义上要求观察分布之外的扰动而仅从观察数据中学习的系统其学习边界恰恰由该分布所定义。LeJEPA的高斯条件只是一个具体的数学实例[9]即使未来的证明放松了高斯假设它也只会用另一组在真实复杂场景中同样无法满足的条件替换——因为数据分布画出的圆永远包含不了圆外的扰动见4.3节。这恰恰是本文论证与此前改进因果学习工作的分界线Schölkopf等人的模块不变性[17]和Bengio等人的元学习目标[18]都预设了「可注入的结构假设能改进学习系统内的因果发现」——从而隐含地印证了本文的预测因果理解需要外部注入而非内生涌现。Cosmos 3的双塔架构恰好是「干预不可内生」的最佳工程佐证[6]。Reasoner塔的物理理解不是从视频生成中涌现的而是独立训练后注入的。Reasoner塔的存在本身就是证据理解无法从数据中内生必须从架构层面注入不更审慎地说Reasoner塔至少证明在当前技术路径下生成派自己也不相信理解能从数据中内生否则为什么需要独立训练一个塔来负责物理推理 双塔设计至少揭示了一点纯统计学习无法抵达因果理解必须从外部架构层面注入。更根本地看谁来训练Reasoner塔谁决定了什么算「物理理解」这个「谁」设计者才是真正的因果主体它通过架构设计把自己的因果假设注入了系统。这正是负主体性理论的核心判断理解的位置不在模型内部而在模型与设计者之间的因果责任关系中。Lerchner的Abstraction Fallacy一文为此提供了技术本体论支撑AI的「理解」是载体因果性不是内容因果性。符号计算不是内在的物理过程而是依赖于制图者的描述。从概念到符号是横向的分配行为不是进一步的抽象步骤。这个横向步骤永久切断了从符号回到起源体验的任何内在路径[16]。世界模型的「预测」是载体因果性不是内容因果性物理状态驱动下一物理状态但系统不理解因果结构本身。最后负主体性框架提出了一组开放问题。如果数据采集策略本身决定了世界模型的「理解质量」谁来设计这个策略设计者是否在「注入」自己的因果假设当世界模型开始做反事实推理时它与「真正的主体性」之间的边界在哪里这些问题没有现成答案。但负主体性框架至少为追问这些问题提供了精确的概念工具五重否定是五个诊断维度Pearl阶梯是三个因果层级两者组合成十五格分析框架可以更精细地标定任何世界模型在「因果理解」光谱上的精确位置。完整框架如下L1关联L2干预L3反事实视角消解多视角几何的统计聚合无视角归属的导航无主观立场的想象欲望取消模式匹配的目标完成无内在目的的目的性动作模仿无动机效价的反事实可能性枚举模拟偏好无真实估值判定标准若模型在偏好反转实验中生成的反事实选项仍维持原价值排序则归入此格若出现与训练偏好相悖的自主价值偏移则需重新评估内在透明黑箱输入-输出映射无体验根基的可执行程序如stable-worldmodel50.8%成功率在颜色扰动下降至6%[8]无内在觉察的推理痕迹因果消解表层关联替代机制如Kang等人的颜色形状特征优先级倒置[12]表面动作模仿的捷径锁定如NTP的聪明汉斯效应[15]反事实语法无语义锚定意义悬置无语义深度的词汇连贯不理解为什么的任务完成无存在论承诺的生成替代项反事实作为分布变体非真正可能性框架中的单元格是分析工具而非既定的经验断言部分条目如「欲望取消 × L3」是暂定性的尚待进一步实证校准——例如通过偏好反转实验检验模型的反事实推理是否反映了真实的估值变化还是仅仅是分布重计算或通过奖励黑客分析揭示生成的替代选项是否携带动机力量还是始终处于动机惰性状态。实证校准演示。三个已有实证发现可以校准框架中的具体格子因果消解 × L1关联Kang等人的特征优先级倒置[12]直接校准了这一格。视频生成模型将color置于shape之上最不重要的视觉特征被优先学习最重要的物理因果被完全忽略。这不是「学得不好」而是因果消解在L1层面的精确签名模型用表层视觉关联替代了物理因果机制。内在透明 × L2干预stable-worldmodel的颜色扰动实验[8]校准了这一格。Push-T成功率从50.8%骤降至6%说明模型执行的是无体验根基的可执行程序——在特定视觉分布内可运行但完全不理解为什么这样做。50.8%→6%的曲线就是这格的实证指纹。因果消解 × L2干预Nagarajan等人的NTP聪明汉斯效应[15]校准了这一格。模型在序列早期建立捷径跳过潜在因果计划直接学表层共现统计。捷径锁定后梯度信号被抽空——模型永远学不到真正的因果。这是「表面动作模仿的捷径锁定」的工程实例化。局限性声明。需要指出几点局限。第一负主体性框架本身有边界它描述的是以统计运算为主的AI系统其对于混合架构如显式注入符号因果规则的神经符号系统的适用性是开放问题——不过按本文论证这种注入恰恰构成了框架所预测的必要外部因果补充。第二本文分析的技术版图反映的是2026年中的状态未来的架构创新可能需要重新审视部分经验性论断但核心形而上学论证不依赖于任何特定架构。第三「干预不可内生」是可证伪的如果未来出现一个纯从观察数据中内生出分布外因果结构的系统——不需要外部注入因果假设不需要架构层面的外部补充——则本文的核心论断被推翻。这一falsification condition为框架提供了经验可检验性。世界模型不会试世界。但它通过「试不了」这件事让我们第一次看清了「试」意味着什么。镜子照出的不是因果本身而是因果所依赖的、不可还原的条件。 正是这些条件的缺失定义了「理解」与「看起来理解」之间的鸿沟。如果本文论断成立那今天最该做的事不是吹「视频生成世界模型」而是建立可操控因果假设的可证伪benchmark——在已知干预结构的受控环境中测试世界模型看它们到底是在理解因果还是在统计拟合。少一点「能生成就能理解」的叙事多一点「什么条件下才叫理解」的判据。这不是悲观这是负主体性框架给研究者的最诚实的行动指南。延伸阅读Fan, M. (2026a). Negative Subjectivity: The Ontological Inversion of Large Language Models. PhilArchive preprint. https://philarchive.org/rec/MINNST-2Fan, M. (2026b). Compression Is Intelligence: The Common Ground of Positive Subjectivity and Negative Subjectivity. PhilArchive preprint. https://philarchive.org/rec/MINWCCWorld Labs. (2026). Marble: First Commercial World Model. Demo presented at CES 2026, January 2026.Li, F. (2026). Keynote at Cisco AI Summit, February 4, 2026.Li, F. (2026). Interview on Lenny’s Podcast, May 22, 2026.NVIDIA. (2026). Cosmos 3: Open-Source Physical AI Foundation Model. Released at GTC Taipei, May 31, 2026. https://nvidianews.nvidia.com/news/nvidia-launches-cosmos-3-the-open-frontier-foundation-model-for-physical-aiPearl, J., Mackenzie, D. (2018).The Book of Why: The New Science of Cause and Effect. Basic Books.Maes, L., Le Lidec, Q., Facury, L., Massaudi, N., Chaurasia, A., Capuano, F., Gao, R., Gillin, T., Haramati, D., Scieur, D., LeCun, Y., Balestriero, R. (2026). stable-worldmodel: A Platform for Reproducible World Modeling Research and Evaluation. arXiv:2605.21800.Klindt, D., LeCun, Y., Balestriero, R. (2026). When Does LeJEPA Learn a World Model? arXiv:2605.26379.Li, D., Fang, Y., Chen, Y., Yang, S., Cao, S., Wong, J., Luo, M., Wang, X., Yin, H., Gonzalez, J. E., Stoica, I., Han, S., Lu, Y. (2025). WorldModelBench: Judging Video Generation Models As World Models. arXiv:2502.20694. NeurIPS 2025.Shang, Y., Tang, Y., Ma, Y., Li, Z., Jin, L., Su, W., Jin, X., Wang, Z., Wang, Z., Zhang, X., Su, H., He, W., Wu, W., Duan, H., Wetzstein, G., Liu, X., Shah, D., Zhang, Z., Chen, Z., Zhu, J., Tian, Y., Chua, T.-S., Zhu, W., Gao, C., Li, Y. (2026). WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform. arXiv:2605.17912.Kang, B., Yue, Y., Lu, R., Lin, Z., Zhao, Y., Wang, K., Huang, G., Feng, J. (2024). How Far is Video Generation from World Model: A Physical Law Perspective. arXiv:2411.02385. ICML 2025.Yang, S., Yang, J., Huang, P., Brown, E. L. (2025). Cambrian-S: Towards Spatial Supersensing in Video. arXiv:2511.04670.Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Yue, Y., Song, S., Huang, G. (2025). Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? arXiv:2504.13837. NeurIPS 2025 Oral.Nagarajan, V., Wu, C. H., Ding, C., Raghunathan, A. (2025). Roll the Dice Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction. arXiv:2504.15266. ICML 2025 Outstanding Paper.Lerchner, A. (2026). The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness. PhilArchive preprint. Google DeepMind.Schölkopf, B., Locatello, F., Bauer, S., Ke, N. R., Kalchbrenner, N., Goyal, A., Bengio, Y. (2021). Toward Causal Representation Learning.Proceedings of the IEEE, 109(5), 612-634.Bengio, Y., Deleu, T., Rahaman, N., Ke, R., Lachapelle, S., Bilaniuk, O., Goyal, A., Pal, C. (2021). A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms.arXiv:2001.11107v4.