【导语大量VLA模型主要依赖二维视觉在空间感知任务上成功率下滑补空间信息的现有路线各有代价。上海交大MINT团队提出Evo - Depth中间路线兼顾性能与部署效率代码等已全面开源。】现有VLA模型空间感知难题待解目前机器人虽有视觉能力但大量VLA模型主要依赖二维视觉。一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务成功率就会明显下滑。补空间信息有显式3D和隐式3D两条路线但都有代价。显式3D路线靠深度传感器和点云重建硬件链路长、对标定误差敏感隐式3D路线从RGB学几何省了硬件但不少方案依赖较重的基础模型训练和推理成本偏高。Evo - Depth中间路线新突破上海交大MINT团队提出的Evo - Depth约0.9B参数不额外增加硬件负担用紧凑的隐式深度编码把空间感写进VLA策略里兼顾了仿真与真机的性能与部署效率。在仿真端Meta - World达到84.4%、LIBERO达到95.4%真机平均成功率约90%部署侧约3.2 GB显存、约12.3 Hz推理频率。Evo - Depth的核心思路是从多视角RGB提取紧凑的隐式深度表征再以轻量方式融入视觉 - 语言通路最后通过flow - matching动作专家输出连续动作。系统三部分协同运作整个系统主要由三部分组成。IDEMImplicit Depth Encoding Module负责从多视角图像中提取隐式深度特征强调空间布局与相对几何关系骨干约0.13B参数并结合多视角深度预训练初始化在轻量条件下引入与深度相关的归纳偏置。SEMSpatial Enhancement Module将隐式深度作为一种调制信号用于增强视觉 - 语言表征。这种融合方式更克制原有VLM继续负责语义理解深度特征主要负责空间增强同时尽量控制延迟与显存开销。Progressive Alignment Training采用分阶段训练方式逐步完成深度表征对齐 - 多模态融合 - 动作学习。动作头则采用了当前VLA中较常见的flow - matching路线。性能 - 成本 - 实时性折中方案Evo - Depth解决了如何在不显著增加系统负担的情况下提升VLA的空间能力这一问题。相比纯二维VLA它补充了空间信息相比更重的3D路线它又尽量保留了部署效率。编辑观点Evo - Depth为机器人VLA领域提供了一种性能、成本与实时性相平衡的方案有望推动机器人操作、空间智能等相关领域发展。
上海交大MINT团队提出Evo - Depth:不增硬件负担,兼顾机器人VLA性能与部署效率
【导语大量VLA模型主要依赖二维视觉在空间感知任务上成功率下滑补空间信息的现有路线各有代价。上海交大MINT团队提出Evo - Depth中间路线兼顾性能与部署效率代码等已全面开源。】现有VLA模型空间感知难题待解目前机器人虽有视觉能力但大量VLA模型主要依赖二维视觉。一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务成功率就会明显下滑。补空间信息有显式3D和隐式3D两条路线但都有代价。显式3D路线靠深度传感器和点云重建硬件链路长、对标定误差敏感隐式3D路线从RGB学几何省了硬件但不少方案依赖较重的基础模型训练和推理成本偏高。Evo - Depth中间路线新突破上海交大MINT团队提出的Evo - Depth约0.9B参数不额外增加硬件负担用紧凑的隐式深度编码把空间感写进VLA策略里兼顾了仿真与真机的性能与部署效率。在仿真端Meta - World达到84.4%、LIBERO达到95.4%真机平均成功率约90%部署侧约3.2 GB显存、约12.3 Hz推理频率。Evo - Depth的核心思路是从多视角RGB提取紧凑的隐式深度表征再以轻量方式融入视觉 - 语言通路最后通过flow - matching动作专家输出连续动作。系统三部分协同运作整个系统主要由三部分组成。IDEMImplicit Depth Encoding Module负责从多视角图像中提取隐式深度特征强调空间布局与相对几何关系骨干约0.13B参数并结合多视角深度预训练初始化在轻量条件下引入与深度相关的归纳偏置。SEMSpatial Enhancement Module将隐式深度作为一种调制信号用于增强视觉 - 语言表征。这种融合方式更克制原有VLM继续负责语义理解深度特征主要负责空间增强同时尽量控制延迟与显存开销。Progressive Alignment Training采用分阶段训练方式逐步完成深度表征对齐 - 多模态融合 - 动作学习。动作头则采用了当前VLA中较常见的flow - matching路线。性能 - 成本 - 实时性折中方案Evo - Depth解决了如何在不显著增加系统负担的情况下提升VLA的空间能力这一问题。相比纯二维VLA它补充了空间信息相比更重的3D路线它又尽量保留了部署效率。编辑观点Evo - Depth为机器人VLA领域提供了一种性能、成本与实时性相平衡的方案有望推动机器人操作、空间智能等相关领域发展。