2025_NIPS_SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Rea

2025_NIPS_SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Rea 文章核心总结本文提出一种名为SSR(Spatial Sense and Reasoning)的视觉-语言模型框架,通过将原始深度数据转化为结构化文本推理依据,并结合知识蒸馏生成紧凑 latent 嵌入,解决现有模型依赖RGB输入、空间推理能力不足的问题。同时构建了百万级数据集SSR-COT和多任务基准SSRBENCH,实现无需重新训练即可插件式集成到现有VLMs中,显著提升空间理解与推理性能。核心创新点SSR框架设计:提出MIDI(Mamba-based Image-Depth Interpreter)模块,将深度信息转化为可解释的推理依据和紧凑嵌入,兼顾可解释性与效率。数据与基准支撑:构建含100万+样本的SSR-COT数据集(含图像-深度-问题-推理依据-答案五维数据),以及覆盖通用和空间任务的SSRBENCH基准。灵活训练范式:采用两阶段训练(推理对齐+联合训练),MIDI模块支持插件式集成,无需重构现有VLM架构。性能与效率平衡:在空间推理任务中实现平均6.77%的精度提升,推理速度较传统CoT方法提升70倍以上。Abstract 翻译尽管视觉-语言模型(VLMs)在多模态任务中取得了令人瞩目的进展,但它们对RGB输入的依赖限制了精确的空间理解能力。现有整合点云或深度等空间线索的方法,要么需要专用传感器,要么无法有