理想詹锟GTC分享的MindVLA-o1：要做面向具身智能的全景架构......-尧图企业网站定制

点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线编辑 | 自动驾驶之心自动驾驶前沿信息获取→自动驾驶之心知识星球今天下午理想汽车基座模型负责人詹锟在NVIDIA GTC 2026上分享了下一代自动驾驶基础模型MindVLA-o1。MindVLA-o1的主题我们在半个月之前就开始关注。在自动驾驶趋于收敛的下半场作为技术人还是非常希望业内能有更多像理想汽车一样的公司分享最新的技术进展。听完Talk收获很多先总结一下MindVLA-o1是一个结合隐式世界模型并统一空间理解、思考推理以及行为决策的VLA模型架构。MindVLA-o1在MindVLA的基础上进一步进化围绕「原生多模态」的设计理念所构建。从目前的信息来看理想汽车坚持把视觉、语言和行为三种模态纳入一个统一框架也即「原生多模态」的含义。它并非先分别训练视觉模型、语言模型和轨迹模型再在后期进行组合。这种统一的设计理念使得不同模态能够在同一个表示空间中共同训练与对齐从而获得更高的效率和更好的泛化能力。下图是MindVLA-o1的整体架构图其中包含的信息可以从以下几个维度展开输入端导航、位姿、GPS、视觉、Lidar和语音指令输出端推理决策CoT、隐世界模型、统一行为生成算法端原生多模MoE、闭环强化学习、3D空间视觉编码推理端软硬件协同架构。自动驾驶VLA的现实困境在深入展开MindVLA-o1之前詹锟分析了主流VLA方法存在的三大局限。13D空间、语言思考与行为之间的对齐效率较低★第一个局限3D空间、语言思考与行为之间的对齐效率较低。在车辆进行辅助驾驶的过程中VLA需要同时完成三件事环境感知在3D空间中有哪些元素 — 车辆/行人/红绿灯等推理思考哪些元素需要车辆重点关注以及宏观层面的决策输出行车轨迹即车辆如何根据感知到的环境信息和模型的思考结果行动。如果这三个过程没能实现较好的对齐会导致两类问题幻觉即语义理解与行为之间产生偏差模型能够理解场景但生成的轨迹不符合预期举个例子车辆前方需要保持在直行车道行驶但实际输出右转轨迹。延迟即视觉、语言和行为之间的链路过长导致车辆反应速度很慢最直接的例子是思维链太长抓不住关键点导致车辆一直在原地等待。为了更好的方便大家理解可以参考下面这张图非常直观的展示了什么叫做「好的对齐效果」。2长尾场景覆盖不足★第二个局限长尾场景即极端场景覆盖不足。这部分的内容理想汽车在ICCV期间和大家分享过整个业内都面临长尾场景泛化较差的问题一是场景罕见二是无法复现。举个例子前方发生了严重的多车连环追尾事故。这种场景一是极少二是后续测试中无法实车复现。所以仅仅依靠真实数据的规模扩展是没办法有效解决极端场景覆盖不足的问题。因此MindVLA-o1在设计之初就考虑结合合成数据与强化学习在仿真环境进行大规模训练和Scaling。3模型推理效率与计算成本失衡★第三个局限模型推理效率与计算成本的不平衡。VLA模型的推理依赖较高的计算带宽和内存开销在车端有限的资源下既要高效的运行VLA又要保证足够的性能。所以软硬件协同设计联合优化模型架构、推理系统及硬件能力也是理想汽车实际在推进的方向即自研端侧芯片马赫100 。下一代架构自动驾驶基座模型MindVLA-o1接下来就是针对三大局限MindVLA-o1给出的解决方法主要有五个核心的技术创新对齐问题3D自监督、隐式世界模型和统一行为生成长尾问题基于强化学习的世界仿真框架推理问题软硬件协同的端侧推理加速。1基座进化从2D BEV迈向3D自监督传统BEV方法将场景拍平为俯视图以表征3D物理世界这迫使模型只能关注高度方向上最显著的单个目标。占据栅格OCC虽然是三维特征但过于稠密的特征表示使得下游应用计算开销太大且缺少语音信息 —— 只知道某处有物体却不清楚该物体是否会造成碰撞。BEV感知示意图另一方面以往的自监督模型主要利用二维图像训练视觉编码器同样丢失了3D的空间信息。所以理想汽车选择重构3D ViT 视觉编码器同时利用视觉和LiDAR数据采用以视觉为核心的3D ViT视觉编码器利用激光雷达点云作为三维几何提示引导模型理解真实空间结构使其在单一表示中同时具备语义理解与三维感知能力引入前馈式3DGS表示为了进一步提升环境理解能力将场景分解为静态环境与动态物体分别建模。在快慢双系统的时代理想汽车就做了很多为业内奠基的重建工作Street Gaussians所以也很自然的过渡到了前馈GS而这个技术也已被理想汽车和特斯拉同时押注。下一帧预测训练中使用下一帧预测Next-State Prediction作为自监督信号同时学习深度信息、语义结构和物体运动这使得模型不仅能理解当前场景还可以预测未来的状态变化。最终得到的3D ViT表示融合了空间结构与时间上下文信息为后续决策模型提供高质量的3D世界表示。可以参考的工作有InfiniDepth、Mobile-GS、GeoDrive和RGS。2思维进化预测式隐世界模型在得到更丰富的空间表征之后理想汽车把世界模型的思想注入到MindVLA-o1中。在许多复杂驾驶场景中自动驾驶系统不仅需要理解当前环境还需要预测未来可能发生的事情。理想汽车选择的路叫做「预测式隐世界模型」Predictive Latent World Model。直接生成未来图像的计算成本过高因此选择在隐空间中进行高效预测。系统首先将当前视觉输入编码为一组Latent Tokens作为场景的紧凑表示然后由世界模型基于这些Tokens预测未来的场景表征。为了实现这个能力理想汽车进一步分享了训练的细节第一步通过大量视频数据预训练隐空间Token构建未来场景的隐空间表征第二步在MindVLA-o1中继续世界模型推演构建隐空间的未来场景推理能力第三步将世界模型、多模态推理能力以及驾驶行为进行联合训练和对齐。理想汽车将这种能力称为「多模态思考」Generative Multimodal Thinking —— 即自动驾驶不仅需要理解当前场景做出逻辑判断还需要预测未来可能发生的情况。通过这种能力VLA会进化的更拟人就像人类开车一样我们会判断下一刻场景会带来怎样的后果而世界模型就是赋予VLA思维进化的核心引擎。从这部分分享的内容也印证了自动驾驶之心先前的思考VLA和世界模型不是竞争关系而是逐渐走向融合统一。★VLA和世界模型并不冲突终极目标是一致的。世界模型可以作为数据引擎、闭环引擎甚至可以参与到VLA的模型训练过程中融合是大势所趋。而更深一层的逻辑是世界模型可能不适合直接作为行为的输出表征更适合作为模型理解物理世界演化的一个桥梁在训练和推理的阶段参与行为的优化。可以参考的工作有WorldRFT和闭环训练框架AD-R1。3行为进化统一行为生成在把视觉基座和思维基座对齐之后MindVLA-o1的最后一步是「统一行为生成」。这部分主要有三层设计第一层是Action Expert动作专家。在VLA-MoE架构中理想汽车引入了专门的「动作专家」模块从3D场景特征、导航目标、驾驶指令等多个输入中提取关键信息结合多模态CoT专注于生成高精度的驾驶轨迹。第二层是Parallel Decoding并行解码。为满足自动驾驶的实时性要求MindVLA-o1没有采用传统的自回归逐点生成方式而是采用并行解码所有轨迹点同时并行生成大幅提升轨迹生成效率尤其在长时间序列轨迹预测时优势更为明显。第三层是Discrete Diffusion Refinement离散扩散优化。为保证并行生成轨迹的质量理想汽车引入离散扩散Discrete Diffusion优化方式模型通过多轮迭代不断对轨迹进行优化类似于逐步去噪过程。最终生成的轨迹在空间上连续、时间上稳定同时满足车辆动力学约束。有三个技术是理想汽车首先落地上车的MoE、并行解码和离散扩散优化。我们可以尝试这么理解三个臭皮匠顶个诸葛亮MoE就是在做这个事情。假设能维持车端实时推理的模型参数量是3B现在使用三个更小的1B模型三者同时推理的效率大体与一个3B模型相等但实际能产生的价值却比一个大模型更高因此最终可以实现 1 1 2的效果并行解码更快自回归方式最大的弊端就是推理效率较低所以采用并行解码的方式将所有轨迹点一次性同时生成这部分可以重点参考下扩散模型的轨迹生成方法理想汽车在这个领域的探索很深走在业内的前列离散扩散优化为了进一步提升轨迹生成的质量引入了离散扩散优化可以参考理想汽车自研的算法工作ReflectDrive。★这三层设计背后的逻辑是专家模型MoE保证自动驾驶场景的专业能力并行解码Parallel Decoding保证行为轨迹的生成速度扩散模型Diffusion保证轨迹的推理精度在引入「统一行为生成」之后MindVLA-o1所包含的V、L、A三个模块就实现了闭环的对齐链路。整体上看这三者相辅相成又互为表里这也是为什么理想汽车强调「视觉、语言和行为三种模态要纳入一个统一框架」。可以参考的工作有LinkVLA、ReflectDrive和LightVLA。4闭环进化基于强化学习的自进化下一个部分理想汽车重点强调了自研的闭环强化学习框架结合詹锟在ICCV中分享的观点数据闭环虽然有效但仅靠数据闭环解决不了所有问题。所以模型不仅可以从真实数据中学习还可以在世界模拟器World Simulator中不断探索和优化。在整个强化学习框架中世界模型仿真的能力决定了强化学习的上限。基于这个出发点理想汽车进行了一个关键的技术升级★将传统的逐步优化式重建升级为Feed-forward前馈的场景重建方式使系统可以瞬时生成大规模、高保真的驾驶场景支持大规模并行训练。同时将前馈场景生成与生成式模型结合使得仿真环境不仅可以重建真实场景还可以扩展、编辑和生成新的场景。在工程基础设施方面理想汽车与NVIDIA团队共同构建了统一的3D Gaussian Splatting渲染引擎以及分布式训练框架实现渲染速度提升接近2倍、整体训练成本降低约75%。正是这种效率的提升理想汽车才能真正实现低成本、高效率的强化学习闭环。可以参考的工作很多ReconDreamer、StreetCrafter、DrivingSphere、CorrectAD等等。5端侧进化软硬件协同最后一部分是理想汽车在车端平台上的探索在端侧部署大模型时高精度模型通常难以在车端运行而能运行的模型又往往精度不够。传统做法是通过大量实验反复调整模型结构这一过程通常需要数月时间。基于现实的问题理想汽车提出了面向端侧大模型的软硬件协同设计定律。在这一框架中不仅建模了模型结构与验证损失之间的关系还结合Roofline模型来刻画硬件计算能力和内存带宽的限制在模型性能与硬件约束之间建立统一的分析框架。值得一提的是理想汽车评估了接近2000种不同的模型架构配置在NVIDIA Drive Orin与Thor平台上完成验证成功找到模型精度与推理延迟之间的Pareto Front帕累托前沿—— 在给定计算预算下模型层数、隐藏维度及MoE激活比例的最优组合方案。经过实践理想汽车发现在端侧计算资源受限的情况下更宽但更浅的模型架构往往比传统的深层模型更加高效。通过这套软硬件协同设计方法端侧VLA模型架构探索时间从数月缩短至几天大幅提升了设计效率与部署速度。论文标题Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs论文链接https://arxiv.org/abs/2602.10377以上就是MindVLA-o1五个核心技术创新的解析自动驾驶之心直观上的感觉这不是理想汽车智能驾驶一次常规的技术迭代而是他们从「感知智能」迈向「认知智能」的一次深度实践。理想汽车作为国内最先落地端到端和VLA的头部新势力所面临的挑战是其他家难以望其项背的。而MindVLA-o1作为下一代自动驾驶基座模型统一了车端推理、云端仿真和闭环进化的三条链路。更为深远的影响在于MindVLA-o1 验证了一条可规模化的具身智能演进路径VLA可以在资源受限的车端和机器人本体上实现高效部署与持续自进化。最后我们看一下理想分享的实车效果。理想的野心要做面向具身智能的全景架构回顾过去三年理想汽车在自动驾驶领域并未选择保守的渐进式路线而是保持了极高的技术迭代频率完成了三次大的架构迭代。在三年前可能没多少人会相信理想汽车能做到智驾的第一梯队在模块化和规则的时代理想汽车想要破局非常困难。第一次他们选择跳出现有的框架看未来选择了端到端。★这是整个行业从Rule-based向AI-based迈进的起点。第二次他们选择让猴子进化成人类选择了VLA。★这是整个行业开始意识到模仿学习无法真正实现端到端。第三次他们选择让儿童进一步成长选择了原生多模态。★这是整个行业开始进入物理AI时代的开端。理想汽车先一次次突破自己原有的方案在一次次打破行业对人工智能的认知。在分享的尾声理想汽车拿出了一整套面向具身智能的AI框架由四大核心部分组成MindData是统一的VLA数据引擎用于持续采集、清洗和自动标注大规模驾驶数据为模型训练提供高质量的数据基础MindVLA-o1是统一原生多模态的VLA模型具备环境理解、推理和驾驶行为生成能力MindSim是可控的多模态世界模型能够生成各种复杂驾驶场景支持大规模闭环训练突破真实世界数据的规模限制RL Infra是强化学习基础设施通过奖励模型和策略学习使系统在仿真和真实环境中持续自我进化和迭代。这四部分组合在一起时构成了理想汽车面向具身智能的基础模型全景图。通过这套系统AI不仅能够看见世界还能够理解世界、在世界中行动并持续从经验中学习。理想汽车认为整个行业正在进入一个新的阶段 ——具身 AI 的时代。过去自动驾驶更多被看作是一个专门的任务让车辆在道路上安全行驶。但现在当我们把视觉、语言和行动统一在一个模型中之后这个系统其实已经不仅仅是一个自动驾驶模型了。而是逐渐演化成一个通用的物理世界智能体。理想汽车已经验证同一套 VLA 基础模型不仅可以控制车辆也可以控制机器人。这也意味着我们可以用同一套基础模型、同一套数据系统去训练不同形态的物理智能体。所以从某种意义上说自动驾驶只是物理 AI 的一个起点。未来类似的基础模型将驱动车辆、机器人以及各种物理系统。而这也正是理想汽车所说的新的具身 AI 范式——Physical Agents。这就是理想汽车眼中的未来也是他们正在亲手打造的现实。自动驾驶之心求点赞求分享求喜欢

相关新闻

5步精通Open Interpreter：本地代码执行AI助手全攻略

Spring Data Elasticsearch 中 LocalDateTime 类型转换的实战解决方案

AppleRa1n深度解析：iOS 15-16激活锁绕过完整实战手册

告别激活弹窗：KMS_VL_ALL_AIO智能激活工具完全指南

微软DebugMCP：可视化调试MCP协议，解决AI与工具通信黑盒问题

163MusicLyrics：一键获取网易云QQ音乐歌词的专业工具

如何永久珍藏你的微信数字记忆？WeChatMsg让聊天记录成为永恒财富！

基于MCP协议的AI远程服务器管理：安全实现与工程实践

LobsterAI：基于智能体框架的多模态内容理解与自动化处理实践

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感