新突破!上海交大等提出Evo-Depth:为VLA补上轻量隐式深度一环

新突破!上海交大等提出Evo-Depth:为VLA补上轻量隐式深度一环 点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达【具身智能】微信群成立大家快扫码加入具身星球将获得最新具身智能技术和项目、❤️ 从入门到精通的学习路线、 具身智能招聘(实习/校招/社招/升学)、具身智能公司名单和高校实验室/教师名单和 行业动态和行业报告等。▲【具身智能】微信群一句话推荐上海交大等单位提出的 Evo-Depth用约0.9B参数在仿真与真机上同时兼顾性能与部署效率为资源受限场景下的 VLA 提供了一条轻量化空间增强路线。《Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model》代码github.com/MINT-SJTU/Evo-Depth论文https://arxiv.org/abs/2605.14950导语VLA 很热但「空间」仍是短板Vision-Language-ActionVLA把视觉、语言与动作串在一起被视作可扩展机器人学习的重要方向。现实任务里精定位、细摆放、遮挡与前后关系往往决定成败——而大量 VLA 仍主要依赖二维视觉空间 grounding 不足时成功率会出现明显下滑。怎么补空间显式 3D深度、点云能补几何却常带来额外传感与重建链路并对噪声与标定误差敏感隐式 3D 从 RGB 学能省硬件但不少路线依赖较重的基础模型训练与推理成本偏高。Evo-Depth 瞄准的正是中间地带不显式增加硬件负担同时尽量保留实时部署能力并把「深度感」以紧凑方式写进策略里。三个值得关注的点问题切得比较准针对 VLA 在精细操作场景中的空间瓶颈给出一条相对清晰的模块化路径隐式深度编码 → 空间增强 → 动作学习对齐而不是单纯依赖更大的模型规模。不仅关注 benchmark除了 Meta-World、VLA-Arena、LIBERO 等基准结果外论文还同步报告了显存占用与推理频率方便和真实部署场景进行对照。开源链路完整官方仓库MINT-SJTU/Evo-Depth与工程实现相互对应配套训练与评测脚本降低了从阅读论文到实际复现的门槛。方法速览轻量 、可端到端训练Evo-DepthEvo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model的核心思路是从多视角 RGB 提取紧凑的隐式深度表征再以轻量方式融入视觉–语言通路最后通过 flow-matching 动作专家输出连续动作。Evo-Depth 模型结构图Evo-Depth 模型结构图多视角 RGB、语言指令和机器人状态作为输入经深度增强的视觉语言动作框架后生成连续动作。整个系统主要由三部分组成IDEMImplicit Depth Encoding ModuleIDEM 负责从多视角图像中提取隐式深度特征强调空间布局与相对几何关系而不是显式生成高成本的 3D 中间表示。论文中IDEM 骨干约0.13B参数并结合多视角深度预训练初始化在轻量条件下引入与深度相关的归纳偏置。SEMSpatial Enhancement ModuleSEM 将隐式深度作为一种调制信号用于增强视觉–语言表征。相比直接增加独立深度分支这种融合方式更克制原有 VLM 继续负责语义理解深度特征主要负责空间增强同时尽量控制延迟与显存开销Progressive Alignment Training多模块联合训练通常容易出现优化不稳定的问题。为此作者采用 Progressive Alignment Training通过分阶段训练方式逐步完成深度表征对齐多模态融合动作学习动作头则采用了当前 VLA 中较常见的 flow-matching 路线。实验结果在约0.9B总参数设置下论文报告的结果包括完整对比见原文维度论文报告结果仿真Meta-World **84.4%**、VLA-Arena **41.1%**、LIBERO **95.4%**、LIBERO-Plus69.6%真机平均成功率约90%部署侧约3.2 GBGPU 显存、约12.3 Hz推理频率相比只关注 benchmark 分数论文也给出了部署侧开销与实时性指标。对于需要真正运行在机器人控制回路中的 VLA 来说这部分信息往往同样重要。从论文到代码已全面开源官方仓库https://github.com/MINT-SJTU/Evo-Depth支持评测LIBERO、LIBERO-Plus、Meta-World MT50、VLA-Arena 等常见具身智能基准。训练流程支持 LeRobot v2.1 风格数据组织与三阶段微调流程。模型权重https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO结语Evo-Depth 想解决的问题其实很直接在不显著增加系统负担的情况下提升 VLA 的空间能力。相比纯二维 VLA它补充了空间信息相比更重的 3D 路线它又尽量保留了部署效率。对于正在做机器人操作、空间智能或 VLA 系统的团队来说这类“性能—成本—实时性”之间的折中方案可能会越来越重要。欢迎 Star、Issue 与交流讨论。【具身智能】学习路线发布扫描下方二维码加群后即可领取学习【具身智能】知识星球优惠券链接https://t.zsxq.com/z2Uz6【具身智能】vip 微信交流群成立还有 vip 微信交流群已加入【具身智能】知识星球的同学一定要扫描下方二维码添加具身智能小助手的微信微信号EAI0011她会拉你进【具身智能】 vip 微信交流群还可以第一时间从她的朋友圈获取本星球的所有内容推送更方便大家学习。点击阅读原文加入具身学习群