这项由加州大学戴维斯分校主导的研究于2026年6月以预印本形式发布在arXiv平台编号为arXiv:2606.05833。研究提出了一个名为GeoVR的新框架核心目标只有一个让当前最先进的多模态大语言模型真正看懂三维空间而且只用普通的视频素材就能做到不依赖任何昂贵的3D标注数据。**一道裂缝藏在最先进的AI眼里**当你站在一个房间里你能立刻判断沙发离你多远、柜子有多高、走廊有多深。这件事对人类来说轻而易举但对目前最顶尖的多模态大语言模型而言却是一道难以跨越的裂缝。所谓多模态大语言模型就是那种既能读图又能聊天的AI系统比如GPT-4o、Gemini这类产品。它们在回答图片相关问题、描述场景、做图文推理等任务上表现惊艳。然而一旦问题涉及真实的三维空间关系——这张桌子离镜头有多远、这扇门比窗户高多少、走过这条走廊再右转就能到达目标吗——它们就会频繁出错甚至给出令人啼笑皆非的答案。这背后有一个根本原因这些模型从头到尾都在二维图像和文字的世界里长大。训练它们的数据是大量的图片和文本对监督信号也只有语言——这是猫、这是沙发、这里有一棵树。模型学会了辨认物体、理解语义却从未被要求理解这只猫距离我两米、这棵树比楼房矮这类带有真实物理尺度的空间信息。换句话说它们的内部表示可以理解为大脑里存储认知的方式只是一张扁平的语义地图而非一个有深度、有距离感的立体模型。加州大学戴维斯分校的研究团队用一个非常直观的实验揭示了这一问题。他们把同一段视频分别输入给一个顶级的多模态大语言模型Qwen3-VL和一个专为三维重建设计的基础模型VGGT然后把各自提取到的内部特征可视化出来——就像给大脑拍了一张思维彩色照片。结果非常鲜明VGGT的照片里同一个物体在不同角度下的颜色保持一致物体边界清晰整个场景像一个有结构的立体模型而Qwen3-VL的照片则像被泼了一桶随机颜料同一个物体在不同帧里颜色完全不同边界模糊毫无几何规律可言。这说明语言驱动的训练让模型学会了认识物体却没有让它真正理解这些物体在三维空间里的位置关系。**现有方案的两条老路都有各自的硬伤**面对这个问题研究界此前已经摸索出两条路但两条路都有明显的局限。第一条路是直接喂给模型三维数据。也就是把点云一种用大量三维坐标点描述物体形状的数据格式可以理解为用密密麻麻的空间坐标点描绘出一个立体雕塑、三维网格等真实的立体信息输入给模型让它从中学习空间关系。代表性工作包括PointLLM、3D-LLM、SpatialLM等。这条路的问题在于高质量的三维标注数据极其稀缺且昂贵采集一个室内场景的完整点云需要专业设备和大量人工。数据量的瓶颈严重限制了模型的泛化能力而且学了三维数据之后模型在普通二维图像理解任务上的表现往往会退步。第二条路是外挂插件式的融合。思路是保留原来的多模态大语言模型不动同时接入一个专门的三维基础模型比如VGGT、DepthAnything等让这个三维模型实时提取空间特征然后把这些特征粘贴到原模型的二维特征上。代表性工作有VG-LLM、Spatial-MLLM通过逐元素相加融合、VLM-3R、SpaceMind通过注意力机制融合等。这条路的问题同样突出每次推理也就是模型回答问题的时候都需要同时运行两个大模型计算成本翻倍推理速度大幅下降。更根本的问题是这种融合方式只是在表面上把两种特征混在一起三维模型的几何理解并没有真正渗入多模态大语言模型的内部表示里只是在最外层打了个补丁。**GeoVR的核心哲学用视频重塑大脑**加州大学戴维斯分校的研究团队提出的GeoVR走的是第三条路核心理念是不借助昂贵的三维标注数据也不在推理时外挂三维模型而是在训练阶段通过一套精心设计的几何学习任务从根本上改变多模态大语言模型内部的表示方式。打个比方前两条路分别是给学生专门的立体图纸练习和考试时允许携带3D眼镜作弊而GeoVR的做法是在日常训练里加入大量空间推理练习让学生的大脑本身就发展出立体感知能力考试时不需要任何辅助工具。具体来说GeoVR使用普通的视频序列作为训练素材——就是手机拍摄的室内视频没有任何三维标注。在训练过程中它额外引入一个冻结的不更新参数的三维基础模型作为老师。这位老师的职责不是在推理时帮忙而是在训练时提供几何知识的参考答案。训练完成后老师退场学生独立上阵。**四道几何题重塑模型的空间大脑**GeoVR在训练阶段给多模态大语言模型布置了四道几何题每道题都从不同角度逼迫模型发展出真正的空间感知能力。这四道题紧密配合缺一不可。第一道题叫做摄像机姿态估计。当你拿着手机绕着客厅走一圈拍视频手机的位置和朝向每一帧都在变化——向左转了多少度、向前移动了多少厘米、俯仰角度变了多少。这些信息在专业上称为摄像机位姿包含了拍摄者的空间运动轨迹。GeoVR要求模型从视频中预测出每一帧的摄像机姿态具体来说是一个9维的数值向量3个数描述位置平移、4个数描述旋转方向用四元数表示这是描述三维旋转的一种数学工具、2个数描述视野角度。为了让模型完成这道题研究团队设计了一个专门的摄像机令牌——可以理解为在每一帧图像的特征序列末尾塞入一个特殊的记忆槽这个记忆槽会通过模型内部的注意力机制从周围所有帧的视觉信息中汇聚空间线索最终输出摄像机姿态预测。训练时用三维教师模型预测的姿态作为参考答案用加权L1损失一种衡量预测值与真实值之间差距的数学工具来督促模型的预测越来越准。这道题的效果是模型开始理解观察者在移动这件事从而发展出对多视角一致性的感知。第二道题叫做深度图预测。深度图就是给图像的每一个像素都贴上一个距离标签——这个像素对应的物体距离摄像机多少米。对人类来说这种感知是本能的你不需要计算就知道远处的山比近处的椅子更远但对只在二维图像里生活的模型来说这需要从像素颜色和纹理中推断出真实的物理距离是一项相当有挑战性的任务。GeoVR从模型内部的多个层次提取特征——浅层特征捕捉边缘和纹理细节深层特征包含语义理解两者共同输入一个轻量化的DPT头一种专为密集预测设计的网络结构擅长把多尺度特征整合成高分辨率的输出图。这个头部网络同时输出深度图和置信图置信图告诉模型我对哪个像素的深度估计更有把握。损失函数结合了绝对误差和梯度误差梯度可以理解为深度的变化速率捕捉物体边界处的深度跳变并用置信图动态调整各像素的权重。这道题的效果是模型开始把每个视觉位置与真实的物理距离关联起来理解遮挡和空间布局。第三道题叫做公制尺度校准。前两道题解决的是相对关系A比B远、这里有个台阶。但现实问题往往需要绝对尺度这张桌子有多少厘米高、这个房间有多少平方米。单靠相对深度图模型只知道某个物体是另一个物体的两倍远却不知道具体是1米还是10米。为了解决这个问题GeoVR引入了一个全局的尺度令牌。这是一个附加在整个视频特征序列末尾的特殊标记通过模型的全局注意力机制汇聚整段视频里的所有空间线索最终预测一个正实数——这个数就是把相对深度换算成真实物理距离的缩放系数。为了保证数值稳定室内场景的尺度可能从厘米到几十米不等数值范围极大损失函数在对数空间里计算可以理解为先把大数字压缩再比较差距确保各种规模的场景都能得到均衡的训练信号。这道题的效果是模型获得了对真实物理尺度的感知能力能够在绝对意义上理解空间大小。第四道题叫做多尺度几何表示对齐。前三道题都是显式的、有具体数值的预测任务。这道题则更像是一种思维方式的传授直接让模型的内部特征在空间上向三维教师模型靠拢。研究团队从三维教师模型VGGT的第5、12、18、24层分别提取中间特征作为几何知识的样本然后要求多模态大语言模型在对应深度的层次上让自己的特征尽可能接近这些样本。由于两个模型的图像分辨率处理方式不同产生的特征图大小不一样研究团队设计了一个投影函数先把多模态大语言模型的特征从一维序列恢复成二维空间网格通过双线性插值一种平滑缩放图像的数学方法对齐到三维模型的特征尺寸再用一个小型MLP多层感知机可以理解为几层简单的全连接网络调整特征维度最后用余弦相似度来衡量两个特征向量的方向一致程度并最小化差距。这道题覆盖了模型的浅层到深层确保几何知识在各个抽象层次上都得到渗透而非只在某一个层次上发生表面对齐。这四道题在训练时同时进行与原来的语言预测任务共同优化用超参数控制各自的权重比例。训练结束后承担这四道题的所有额外网络头、三维教师模型全部丢弃只留下被改造过内部结构的多模态大语言模型本身。**数据从哪里来视频就是免费的几何教材**一个关键问题是四道几何题的参考答案从哪里获得总不能人工标注每一帧视频的深度和摄像机姿态吧——那样又回到了依赖昂贵标注的老路。GeoVR的解决方案是把三维基础模型VGGT当作一个零样本的自动标注工具。VGGT经过大规模预训练只需输入普通视频帧就能直接输出摄像机姿态、深度图等几何信息不需要任何额外标注。对于公制尺度则借助另一个专门的公制深度模型DepthAnything3的公制版本来对齐相对深度图推导出全局尺度因子。这样一来GeoVR的训练数据完全是自给自足的任意一段普通视频进来三维教师模型自动生成参考答案多模态大语言模型在这些答案的督导下完成四道几何题的训练。整个流程不需要任何人工三维标注可以轻松扩展到海量的网络视频数据。研究团队实际使用的训练数据是VSI-590K和VLM-3R两个数据集的混合共约数十万条视频样本训练一轮即可。**实验成绩2B模型力压8B竞品甚至超越GPT-5**衡量空间理解能力研究团队使用了VSI-Bench这个专门的空间推理测试基准。这个测试集来自真实的室内扫描视频包含五千多道题分成两大类需要给出具体数字的数值答案题比如这张椅子离门有多少米和需要在选项中选择的选择题比如哪个方向是卧室。八种具体任务涵盖了物体计数、绝对距离、物体尺寸、房间大小、相对距离、相对方向、路径规划和出现顺序。GeoVR基于一个20亿参数规模的基础模型Qwen3-VL-2B-Instruct微调而来最终在VSI-Bench的综合得分上达到69.1分。这个成绩意味着什么对比一下就清楚了。原始的Qwen3-VL-2B基础模型得50.3分GeoVR提升了整整18.8分提升幅度接近40%。GPT-5在这个测试上得55分被GeoVR以14分的优势甩在身后。Gemini 2.5 Pro得53.5分同样远落后于GeoVR。在开源的专用空间智能模型中SpaceMind-8B得69.6分、VLM-3R-7B得60.9分——注意这两个模型的参数量是GeoVR的四倍而且在推理时都需要外挂三维模型带来大量额外计算。GeoVR以五分之一不到的参数量2B对比8B、零额外推理开销取得了与最强竞品相当甚至更优的成绩。具体拆解各项任务GeoVR在几个关键指标上表现尤为突出。绝对距离任务得54.5分高于大多数竞品房间大小任务得72.3分处于同档位最高水平出现顺序任务得86.7分在所有对比模型中几乎排名第一。这些任务恰好是最需要真实三维感知能力的方向与GeoVR的设计目标高度吻合。**深挖实验每道几何题究竟贡献了什么**研究团队还做了一系列消融实验逐一验证四道几何题各自的贡献消融实验可以理解为一道一道摘掉零件看整体性能如何变化。仅使用语言预测任务作为基线得分为56.7。单独加入摄像机姿态估计任务得分跳到59.8相对方向这项指标从57.7飙升到66.9——这很直观因为理解摄像机在移动直接帮助模型判断方向关系。单独加入深度预测任务得分同样到59.7房间大小这项指标从48.8跃升到62.5——因为理解深度直接帮助模型感知房间的空间尺度。两者合并得分升到60.3说明两道题注入的是互补而非重叠的空间知识。再加入尺度校准得分到60.9验证了知道多远和知道多远的绝对数值是两种不同层次的空间感知。最终把几何表示对齐也加进来四道题全部激活得分达到62.1是所有组合里的最高点。值得注意的是单独使用几何表示对齐的得分只有57.5说明这道题如果脱离了前三道显式几何任务的物理锚定效果会大打折扣——四者协同才能真正重塑模型的空间认知。在选择哪个三维模型作为教师方面研究团队对比了VGGT、VGGT-ΩVGGT的改进版和DepthAnything3。出乎意料的是标准版VGGT62.1分反而比改进版VGGT-Ω60.7分表现更好。原因在于VGGT-Ω为了降低计算成本把一部分全局注意力替换成了寄存器注意力一种更聚合的注意力机制这虽然节省了计算却损失了密集图像特征里的精细空间对应关系作为老师时传授的几何知识就没那么精准了。DepthAnything358.7分表现最弱可能因为其架构主要优化深度估计对摄像机姿态和多视角一致性的建模不如VGGT全面。在特征对齐的层次选择上研究团队发现均匀覆盖整个网络深度第5、12、18、24层全部对齐的策略59.67分明显优于只对齐单个层次单层对齐约57-58分或只对齐两个不均衡层次56-57分的策略。这说明几何知识需要在浅层到深层的所有尺度上都得到渗透只做表面对齐是不够的。在深度预测网络结构的选择上研究团队对比了三种设计纯MLP头参数量1360万、标准DPT头参数量3270万和融合了卷积与MLP的混合Dense头参数量3230万。Dense头在使用L1损失时性能最好达到60.30分。这反映了空间推理任务更需要绝对精度而非相对尺度的不变性所以优先选择了对绝对误差更敏感的L1损失而非对尺度变化更宽容的SILog损失。**特征可视化用思维彩照看清改造效果**研究团队最后用两种直观的可视化方式证明了GeoVR确实在模型内部发生了真正的改变。一种是PCA投影可以理解为把高维的内部特征压缩成可以用颜色显示的三维数据结果显示经过GeoVR改造的模型同一个物体在不同角度下呈现出一致的颜色物体边界清晰整体色彩分布规律与VGGT的几何特征高度相似而原始Qwen3-VL的特征则色彩混乱、边界模糊完全看不出几何规律。另一种是直接用GeoVR预测出的深度图和摄像机姿态把视频里的像素投影回三维空间重建出点云。结果显示GeoVR重建出的三维点云虽然比VGGT专业模型略显粗糙但基本的空间结构和房间布局是清晰可辨的——这是一个只做过二维视频训练、完全没有接触过三维重建任务的模型做到的事情。说到底GeoVR做的事情可以用一句话概括把三维世界的几何智慧以一种训练时借力、推理时自立的方式悄悄注入了多模态大语言模型的思维方式里。它不需要你去采集昂贵的点云数据不需要推理时扛着两个大模型跑只需要一段普通的室内视频加上四道精心设计的几何练习题就让模型从根本上学会了用立体的眼光看世界。这意味着未来的家用机器人在帮你整理房间时不再需要昂贵的激光雷达就能判断椅子的位置辅助视障人士的AI眼镜可以更准确地告知前方台阶距您1.2米工厂里的AI质检系统可以更可靠地判断零件尺寸是否符合规格。这些应用的背后都需要AI真正理解空间——而GeoVR提供了一条成本可控、效果出色的实现路径。研究团队表示未来计划把GeoVR的框架扩展到更大规模的模型和更多类型的数据上并探索其在更复杂的空间智能任务中的潜力。有兴趣深入了解技术细节的读者可以通过编号arXiv:2606.05833查阅完整论文代码也将在GitHub上的WHB139426/GeoVR-MLLM仓库公开。QAQ1GeoVR框架训练完成后推理阶段需要额外的三维模型参与吗A不需要。GeoVR的三维教师模型如VGGT和所有辅助的几何预测网络头只在训练阶段发挥作用用来提供参考答案和监督信号。训练结束后这些额外组件全部丢弃推理时只运行被改造过的多模态大语言模型本身没有任何额外计算开销也不需要真实的三维数据输入。Q2GeoVR的四道几何任务分别解决了什么问题A四道任务各自补足空间感知的不同维度。摄像机姿态估计帮助模型理解多视角下的视点变化深度图预测让模型感知每个像素的物理距离公制尺度校准把相对距离转换为真实的绝对物理尺寸多尺度几何表示对齐则通过特征层面的知识蒸馏让模型的内部思维方式在浅层到深层都接近专业三维模型的几何理解方式。四者协同效果最好单独使用任意一道任务的提升效果均有限。Q3VSI-Bench上GeoVR得分69.1意味着什么水平A这个得分让GeoVR超越了GPT-555分、Gemini 2.5 Pro53.5分等顶级商业大模型也超越了Cambrian-S-7B67.5分、VLM-3R-7B60.9分等参数量更大的开源专用空间模型与SpaceMind-8B69.6分基本持平。GeoVR仅使用20亿参数是许多竞品的四分之一规模且推理时无需外挂三维模型性价比在当前同类方案中处于最高水平。
加州大学戴维斯分校教会AI“看懂“三维世界
这项由加州大学戴维斯分校主导的研究于2026年6月以预印本形式发布在arXiv平台编号为arXiv:2606.05833。研究提出了一个名为GeoVR的新框架核心目标只有一个让当前最先进的多模态大语言模型真正看懂三维空间而且只用普通的视频素材就能做到不依赖任何昂贵的3D标注数据。**一道裂缝藏在最先进的AI眼里**当你站在一个房间里你能立刻判断沙发离你多远、柜子有多高、走廊有多深。这件事对人类来说轻而易举但对目前最顶尖的多模态大语言模型而言却是一道难以跨越的裂缝。所谓多模态大语言模型就是那种既能读图又能聊天的AI系统比如GPT-4o、Gemini这类产品。它们在回答图片相关问题、描述场景、做图文推理等任务上表现惊艳。然而一旦问题涉及真实的三维空间关系——这张桌子离镜头有多远、这扇门比窗户高多少、走过这条走廊再右转就能到达目标吗——它们就会频繁出错甚至给出令人啼笑皆非的答案。这背后有一个根本原因这些模型从头到尾都在二维图像和文字的世界里长大。训练它们的数据是大量的图片和文本对监督信号也只有语言——这是猫、这是沙发、这里有一棵树。模型学会了辨认物体、理解语义却从未被要求理解这只猫距离我两米、这棵树比楼房矮这类带有真实物理尺度的空间信息。换句话说它们的内部表示可以理解为大脑里存储认知的方式只是一张扁平的语义地图而非一个有深度、有距离感的立体模型。加州大学戴维斯分校的研究团队用一个非常直观的实验揭示了这一问题。他们把同一段视频分别输入给一个顶级的多模态大语言模型Qwen3-VL和一个专为三维重建设计的基础模型VGGT然后把各自提取到的内部特征可视化出来——就像给大脑拍了一张思维彩色照片。结果非常鲜明VGGT的照片里同一个物体在不同角度下的颜色保持一致物体边界清晰整个场景像一个有结构的立体模型而Qwen3-VL的照片则像被泼了一桶随机颜料同一个物体在不同帧里颜色完全不同边界模糊毫无几何规律可言。这说明语言驱动的训练让模型学会了认识物体却没有让它真正理解这些物体在三维空间里的位置关系。**现有方案的两条老路都有各自的硬伤**面对这个问题研究界此前已经摸索出两条路但两条路都有明显的局限。第一条路是直接喂给模型三维数据。也就是把点云一种用大量三维坐标点描述物体形状的数据格式可以理解为用密密麻麻的空间坐标点描绘出一个立体雕塑、三维网格等真实的立体信息输入给模型让它从中学习空间关系。代表性工作包括PointLLM、3D-LLM、SpatialLM等。这条路的问题在于高质量的三维标注数据极其稀缺且昂贵采集一个室内场景的完整点云需要专业设备和大量人工。数据量的瓶颈严重限制了模型的泛化能力而且学了三维数据之后模型在普通二维图像理解任务上的表现往往会退步。第二条路是外挂插件式的融合。思路是保留原来的多模态大语言模型不动同时接入一个专门的三维基础模型比如VGGT、DepthAnything等让这个三维模型实时提取空间特征然后把这些特征粘贴到原模型的二维特征上。代表性工作有VG-LLM、Spatial-MLLM通过逐元素相加融合、VLM-3R、SpaceMind通过注意力机制融合等。这条路的问题同样突出每次推理也就是模型回答问题的时候都需要同时运行两个大模型计算成本翻倍推理速度大幅下降。更根本的问题是这种融合方式只是在表面上把两种特征混在一起三维模型的几何理解并没有真正渗入多模态大语言模型的内部表示里只是在最外层打了个补丁。**GeoVR的核心哲学用视频重塑大脑**加州大学戴维斯分校的研究团队提出的GeoVR走的是第三条路核心理念是不借助昂贵的三维标注数据也不在推理时外挂三维模型而是在训练阶段通过一套精心设计的几何学习任务从根本上改变多模态大语言模型内部的表示方式。打个比方前两条路分别是给学生专门的立体图纸练习和考试时允许携带3D眼镜作弊而GeoVR的做法是在日常训练里加入大量空间推理练习让学生的大脑本身就发展出立体感知能力考试时不需要任何辅助工具。具体来说GeoVR使用普通的视频序列作为训练素材——就是手机拍摄的室内视频没有任何三维标注。在训练过程中它额外引入一个冻结的不更新参数的三维基础模型作为老师。这位老师的职责不是在推理时帮忙而是在训练时提供几何知识的参考答案。训练完成后老师退场学生独立上阵。**四道几何题重塑模型的空间大脑**GeoVR在训练阶段给多模态大语言模型布置了四道几何题每道题都从不同角度逼迫模型发展出真正的空间感知能力。这四道题紧密配合缺一不可。第一道题叫做摄像机姿态估计。当你拿着手机绕着客厅走一圈拍视频手机的位置和朝向每一帧都在变化——向左转了多少度、向前移动了多少厘米、俯仰角度变了多少。这些信息在专业上称为摄像机位姿包含了拍摄者的空间运动轨迹。GeoVR要求模型从视频中预测出每一帧的摄像机姿态具体来说是一个9维的数值向量3个数描述位置平移、4个数描述旋转方向用四元数表示这是描述三维旋转的一种数学工具、2个数描述视野角度。为了让模型完成这道题研究团队设计了一个专门的摄像机令牌——可以理解为在每一帧图像的特征序列末尾塞入一个特殊的记忆槽这个记忆槽会通过模型内部的注意力机制从周围所有帧的视觉信息中汇聚空间线索最终输出摄像机姿态预测。训练时用三维教师模型预测的姿态作为参考答案用加权L1损失一种衡量预测值与真实值之间差距的数学工具来督促模型的预测越来越准。这道题的效果是模型开始理解观察者在移动这件事从而发展出对多视角一致性的感知。第二道题叫做深度图预测。深度图就是给图像的每一个像素都贴上一个距离标签——这个像素对应的物体距离摄像机多少米。对人类来说这种感知是本能的你不需要计算就知道远处的山比近处的椅子更远但对只在二维图像里生活的模型来说这需要从像素颜色和纹理中推断出真实的物理距离是一项相当有挑战性的任务。GeoVR从模型内部的多个层次提取特征——浅层特征捕捉边缘和纹理细节深层特征包含语义理解两者共同输入一个轻量化的DPT头一种专为密集预测设计的网络结构擅长把多尺度特征整合成高分辨率的输出图。这个头部网络同时输出深度图和置信图置信图告诉模型我对哪个像素的深度估计更有把握。损失函数结合了绝对误差和梯度误差梯度可以理解为深度的变化速率捕捉物体边界处的深度跳变并用置信图动态调整各像素的权重。这道题的效果是模型开始把每个视觉位置与真实的物理距离关联起来理解遮挡和空间布局。第三道题叫做公制尺度校准。前两道题解决的是相对关系A比B远、这里有个台阶。但现实问题往往需要绝对尺度这张桌子有多少厘米高、这个房间有多少平方米。单靠相对深度图模型只知道某个物体是另一个物体的两倍远却不知道具体是1米还是10米。为了解决这个问题GeoVR引入了一个全局的尺度令牌。这是一个附加在整个视频特征序列末尾的特殊标记通过模型的全局注意力机制汇聚整段视频里的所有空间线索最终预测一个正实数——这个数就是把相对深度换算成真实物理距离的缩放系数。为了保证数值稳定室内场景的尺度可能从厘米到几十米不等数值范围极大损失函数在对数空间里计算可以理解为先把大数字压缩再比较差距确保各种规模的场景都能得到均衡的训练信号。这道题的效果是模型获得了对真实物理尺度的感知能力能够在绝对意义上理解空间大小。第四道题叫做多尺度几何表示对齐。前三道题都是显式的、有具体数值的预测任务。这道题则更像是一种思维方式的传授直接让模型的内部特征在空间上向三维教师模型靠拢。研究团队从三维教师模型VGGT的第5、12、18、24层分别提取中间特征作为几何知识的样本然后要求多模态大语言模型在对应深度的层次上让自己的特征尽可能接近这些样本。由于两个模型的图像分辨率处理方式不同产生的特征图大小不一样研究团队设计了一个投影函数先把多模态大语言模型的特征从一维序列恢复成二维空间网格通过双线性插值一种平滑缩放图像的数学方法对齐到三维模型的特征尺寸再用一个小型MLP多层感知机可以理解为几层简单的全连接网络调整特征维度最后用余弦相似度来衡量两个特征向量的方向一致程度并最小化差距。这道题覆盖了模型的浅层到深层确保几何知识在各个抽象层次上都得到渗透而非只在某一个层次上发生表面对齐。这四道题在训练时同时进行与原来的语言预测任务共同优化用超参数控制各自的权重比例。训练结束后承担这四道题的所有额外网络头、三维教师模型全部丢弃只留下被改造过内部结构的多模态大语言模型本身。**数据从哪里来视频就是免费的几何教材**一个关键问题是四道几何题的参考答案从哪里获得总不能人工标注每一帧视频的深度和摄像机姿态吧——那样又回到了依赖昂贵标注的老路。GeoVR的解决方案是把三维基础模型VGGT当作一个零样本的自动标注工具。VGGT经过大规模预训练只需输入普通视频帧就能直接输出摄像机姿态、深度图等几何信息不需要任何额外标注。对于公制尺度则借助另一个专门的公制深度模型DepthAnything3的公制版本来对齐相对深度图推导出全局尺度因子。这样一来GeoVR的训练数据完全是自给自足的任意一段普通视频进来三维教师模型自动生成参考答案多模态大语言模型在这些答案的督导下完成四道几何题的训练。整个流程不需要任何人工三维标注可以轻松扩展到海量的网络视频数据。研究团队实际使用的训练数据是VSI-590K和VLM-3R两个数据集的混合共约数十万条视频样本训练一轮即可。**实验成绩2B模型力压8B竞品甚至超越GPT-5**衡量空间理解能力研究团队使用了VSI-Bench这个专门的空间推理测试基准。这个测试集来自真实的室内扫描视频包含五千多道题分成两大类需要给出具体数字的数值答案题比如这张椅子离门有多少米和需要在选项中选择的选择题比如哪个方向是卧室。八种具体任务涵盖了物体计数、绝对距离、物体尺寸、房间大小、相对距离、相对方向、路径规划和出现顺序。GeoVR基于一个20亿参数规模的基础模型Qwen3-VL-2B-Instruct微调而来最终在VSI-Bench的综合得分上达到69.1分。这个成绩意味着什么对比一下就清楚了。原始的Qwen3-VL-2B基础模型得50.3分GeoVR提升了整整18.8分提升幅度接近40%。GPT-5在这个测试上得55分被GeoVR以14分的优势甩在身后。Gemini 2.5 Pro得53.5分同样远落后于GeoVR。在开源的专用空间智能模型中SpaceMind-8B得69.6分、VLM-3R-7B得60.9分——注意这两个模型的参数量是GeoVR的四倍而且在推理时都需要外挂三维模型带来大量额外计算。GeoVR以五分之一不到的参数量2B对比8B、零额外推理开销取得了与最强竞品相当甚至更优的成绩。具体拆解各项任务GeoVR在几个关键指标上表现尤为突出。绝对距离任务得54.5分高于大多数竞品房间大小任务得72.3分处于同档位最高水平出现顺序任务得86.7分在所有对比模型中几乎排名第一。这些任务恰好是最需要真实三维感知能力的方向与GeoVR的设计目标高度吻合。**深挖实验每道几何题究竟贡献了什么**研究团队还做了一系列消融实验逐一验证四道几何题各自的贡献消融实验可以理解为一道一道摘掉零件看整体性能如何变化。仅使用语言预测任务作为基线得分为56.7。单独加入摄像机姿态估计任务得分跳到59.8相对方向这项指标从57.7飙升到66.9——这很直观因为理解摄像机在移动直接帮助模型判断方向关系。单独加入深度预测任务得分同样到59.7房间大小这项指标从48.8跃升到62.5——因为理解深度直接帮助模型感知房间的空间尺度。两者合并得分升到60.3说明两道题注入的是互补而非重叠的空间知识。再加入尺度校准得分到60.9验证了知道多远和知道多远的绝对数值是两种不同层次的空间感知。最终把几何表示对齐也加进来四道题全部激活得分达到62.1是所有组合里的最高点。值得注意的是单独使用几何表示对齐的得分只有57.5说明这道题如果脱离了前三道显式几何任务的物理锚定效果会大打折扣——四者协同才能真正重塑模型的空间认知。在选择哪个三维模型作为教师方面研究团队对比了VGGT、VGGT-ΩVGGT的改进版和DepthAnything3。出乎意料的是标准版VGGT62.1分反而比改进版VGGT-Ω60.7分表现更好。原因在于VGGT-Ω为了降低计算成本把一部分全局注意力替换成了寄存器注意力一种更聚合的注意力机制这虽然节省了计算却损失了密集图像特征里的精细空间对应关系作为老师时传授的几何知识就没那么精准了。DepthAnything358.7分表现最弱可能因为其架构主要优化深度估计对摄像机姿态和多视角一致性的建模不如VGGT全面。在特征对齐的层次选择上研究团队发现均匀覆盖整个网络深度第5、12、18、24层全部对齐的策略59.67分明显优于只对齐单个层次单层对齐约57-58分或只对齐两个不均衡层次56-57分的策略。这说明几何知识需要在浅层到深层的所有尺度上都得到渗透只做表面对齐是不够的。在深度预测网络结构的选择上研究团队对比了三种设计纯MLP头参数量1360万、标准DPT头参数量3270万和融合了卷积与MLP的混合Dense头参数量3230万。Dense头在使用L1损失时性能最好达到60.30分。这反映了空间推理任务更需要绝对精度而非相对尺度的不变性所以优先选择了对绝对误差更敏感的L1损失而非对尺度变化更宽容的SILog损失。**特征可视化用思维彩照看清改造效果**研究团队最后用两种直观的可视化方式证明了GeoVR确实在模型内部发生了真正的改变。一种是PCA投影可以理解为把高维的内部特征压缩成可以用颜色显示的三维数据结果显示经过GeoVR改造的模型同一个物体在不同角度下呈现出一致的颜色物体边界清晰整体色彩分布规律与VGGT的几何特征高度相似而原始Qwen3-VL的特征则色彩混乱、边界模糊完全看不出几何规律。另一种是直接用GeoVR预测出的深度图和摄像机姿态把视频里的像素投影回三维空间重建出点云。结果显示GeoVR重建出的三维点云虽然比VGGT专业模型略显粗糙但基本的空间结构和房间布局是清晰可辨的——这是一个只做过二维视频训练、完全没有接触过三维重建任务的模型做到的事情。说到底GeoVR做的事情可以用一句话概括把三维世界的几何智慧以一种训练时借力、推理时自立的方式悄悄注入了多模态大语言模型的思维方式里。它不需要你去采集昂贵的点云数据不需要推理时扛着两个大模型跑只需要一段普通的室内视频加上四道精心设计的几何练习题就让模型从根本上学会了用立体的眼光看世界。这意味着未来的家用机器人在帮你整理房间时不再需要昂贵的激光雷达就能判断椅子的位置辅助视障人士的AI眼镜可以更准确地告知前方台阶距您1.2米工厂里的AI质检系统可以更可靠地判断零件尺寸是否符合规格。这些应用的背后都需要AI真正理解空间——而GeoVR提供了一条成本可控、效果出色的实现路径。研究团队表示未来计划把GeoVR的框架扩展到更大规模的模型和更多类型的数据上并探索其在更复杂的空间智能任务中的潜力。有兴趣深入了解技术细节的读者可以通过编号arXiv:2606.05833查阅完整论文代码也将在GitHub上的WHB139426/GeoVR-MLLM仓库公开。QAQ1GeoVR框架训练完成后推理阶段需要额外的三维模型参与吗A不需要。GeoVR的三维教师模型如VGGT和所有辅助的几何预测网络头只在训练阶段发挥作用用来提供参考答案和监督信号。训练结束后这些额外组件全部丢弃推理时只运行被改造过的多模态大语言模型本身没有任何额外计算开销也不需要真实的三维数据输入。Q2GeoVR的四道几何任务分别解决了什么问题A四道任务各自补足空间感知的不同维度。摄像机姿态估计帮助模型理解多视角下的视点变化深度图预测让模型感知每个像素的物理距离公制尺度校准把相对距离转换为真实的绝对物理尺寸多尺度几何表示对齐则通过特征层面的知识蒸馏让模型的内部思维方式在浅层到深层都接近专业三维模型的几何理解方式。四者协同效果最好单独使用任意一道任务的提升效果均有限。Q3VSI-Bench上GeoVR得分69.1意味着什么水平A这个得分让GeoVR超越了GPT-555分、Gemini 2.5 Pro53.5分等顶级商业大模型也超越了Cambrian-S-7B67.5分、VLM-3R-7B60.9分等参数量更大的开源专用空间模型与SpaceMind-8B69.6分基本持平。GeoVR仅使用20亿参数是许多竞品的四分之一规模且推理时无需外挂三维模型性价比在当前同类方案中处于最高水平。