2025_NIPS_SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Rea

发布时间：2026/5/27 1:03:35

2025_NIPS_SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Rea

文章核心总结本文提出一种名为SSR（Spatial Sense and Reasoning）的视觉-语言模型框架，通过将原始深度数据转化为结构化文本推理依据，并结合知识蒸馏生成紧凑 latent 嵌入，解决现有模型依赖RGB输入、空间推理能力不足的问题。同时构建了百万级数据集SSR-COT和多任务基准SSRBENCH，实现无需重新训练即可插件式集成到现有VLMs中，显著提升空间理解与推理性能。核心创新点SSR框架设计：提出MIDI（Mamba-based Image-Depth Interpreter）模块，将深度信息转化为可解释的推理依据和紧凑嵌入，兼顾可解释性与效率。数据与基准支撑：构建含100万+样本的SSR-COT数据集（含图像-深度-问题-推理依据-答案五维数据），以及覆盖通用和空间任务的SSRBENCH基准。灵活训练范式：采用两阶段训练（推理对齐+联合训练），MIDI模块支持插件式集成，无需重构现有VLM架构。性能与效率平衡：在空间推理任务中实现平均6.77%的精度提升，推理速度较传统CoT方法提升70倍以上。Abstract 翻译尽管视觉-语言模型（VLMs）在多模态任务中取得了令人瞩目的进展，但它们对RGB输入的依赖限制了精确的空间理解能力。现有整合点云或深度等空间线索的方法，要么需要专用传感器，要么无法有