这项由布朗大学、马里兰大学、宾夕法尼亚大学、南加州大学、纽约大学、悉尼大学和Stability AI联合完成的综述研究以预印本形式发布于2026年6月论文编号为arXiv:2606.04291有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。**一本写给所有人的三维世界指南**假设你拿起一个苹果你的大脑在0.1秒内就能判断出它的形状、大小、表面纹理甚至能预测它落到桌上会怎么滚动。这种能力在人类看来稀松平常但对于计算机来说却是一道横亘多年的高墙。三维视觉简单说就是让机器看懂立体世界的技术近年来突飞猛进已经渗透进自动驾驶汽车、工业机器人、增强现实眼镜乃至数字文物复原等几乎每一个前沿领域。然而这个领域有一个让外人望而生畏的特点它像一个巨大的工具箱里面装满了形形色色的工具每种工具有自己的名字、用法和适用场景而且这些工具之间的关系错综复杂连专业研究者有时也会迷失其中。正因如此这支来自多所顶尖机构的研究团队决定做一件听起来朴实、实则极具价值的事情——写一本菜谱。他们将这篇论文命名为《三维视觉菜谱数据、学习范式与应用》其核心思路是不论你是刚入门的学生还是想换赛道的工程师都应该有一张清晰的地图告诉你三维视觉这片森林里有哪些树、这些树长什么样、它们各自有什么用处以及最近又长出了哪些新枝丫。这篇菜谱的独特之处在于它不是从算法架构出发也不是只盯着某一个具体任务而是从数据本身出发——先弄清楚三维世界的数据有哪些形态再讲这些数据怎么被机器学习最后落到实际应用。这种以数据为核心的视角在现有综述中相当罕见。**一、三维数据的八种语言计算机看世界的不同方式**要理解三维视觉首先要弄懂一个根本问题计算机究竟用什么方式来存储和理解一个三维物体这就好比问你可以用素描、油画、雕塑、乐高积木、3D打印模型或者数学公式来表达同一个苹果每种方式都有自己的优势和局限。研究团队系统梳理了三维视觉领域最主流的八种数据表达方式理解这八种语言是读懂整个领域的基础。第一种叫做RGB-D数据这也许是最接近普通人日常直觉的一种。RGB是彩色图像D是深度Distance/Depth也就是每个像素离相机有多远。微软Kinect体感设备就能产生这种数据。你可以把它理解为普通照片加上一张距离地图每个像素不仅有颜色还标注了这里距离我1.2米那里距离我3.5米。这种方式计算起来非常高效就像在一张平面图上多加一层信息所以广泛用于室内场景理解、人体姿态识别和即时定位与地图构建俗称SLAM可以理解为机器人边走边画地图。它的局限是只能看到正面背后和侧面被遮挡的部分无法获知。第二种是多视角图像。这相当于拿着相机围着一个物体转一圈从不同角度拍很多张照片然后把这些照片和每张照片对应的相机位置一起打包。这种方式在视觉上保真度极高——毕竟照片本身就很逼真——但三维几何形状需要通过计算推断出来而不是直接测量。谷歌街景、神经辐射场后文会详细介绍都以此为输入。第三种是点云。点云可以理解为用激光笔在物体表面打了密密麻麻的点每个点记录它在空间中的三维坐标(x, y, z)有时还附带颜色或表面法线方向。激光雷达LiDAR产生的就是点云自动驾驶汽车顶上那个旋转的圆柱体就是激光雷达。点云的优点是直接测量、真实准确缺点是这些点杂乱无章没有固定的顺序或连接关系所以传统的图像处理神经网络不能直接用需要专门设计的算法。PointNet就是第一个专门处理点云的深度学习网络它能直接对这些散乱的点进行分析。第四种是体素网格Voxels。如果点云像散落的沙粒那体素网格就像用整齐的正方体积木把空间切割成一个个小格子就像三维版的像素Pixel因此叫体素Voxel。每个格子可以标记有东西或没东西也可以存储颜色、密度等信息。这种方式天然适合三维卷积神经网络处理就像二维图像适合二维卷积网络一样。但问题在于如果你想要高精度格子就得很小、数量就得很多内存消耗会呈三次方急剧膨胀代价非常昂贵。第五种是网格Mesh。网格是由顶点、边和面通常是三角形面构成的表面模型就像用三角形拼贴出一个物体的外壳。游戏里的角色模型、动画电影里的人物几乎都是网格。网格既能表达形状又能表达拓扑也就是哪些部分是连着的非常紧凑适合渲染和物理仿真。难点在于网格的不规则性——三角形的数量、大小、连接方式千变万化标准的深度学习框架对这种不规则数据处理起来很吃力所以很多流程会先把网格转换成点云或体素再处理。第六种是CAD模型全称计算机辅助设计模型。与前几种侧重于长什么样不同CAD模型更关注怎么造出来的。它用数学公式精确描述曲面最常见的是NURBS非均匀有理B样条曲线可以把它理解为用几个控制把手来精确操控一段光滑曲线或曲面。工业零件设计、汽车车身建模用的就是CAD。CAD模型的精度极高可以直接用于数控加工但获取方式不像拍照那么简单通常需要工程师手工设计或者从扫描数据逆向工程重建。第七种是隐式场Implicit Field这是近年来随着神经网络技术兴起的新方式代表作是神经辐射场NeRF和占用网络Occupancy Networks。传统方式都是用明确的点、面、格子来表示形状而隐式场则把整个三维形状编码进一个神经网络的参数里。你给它一个三维坐标它告诉你那里是里面还是外面或者那个位置从某个角度看起来是什么颜色、有多亮。这种方式理论上精度极高能表达非常精细的细节但训练和渲染都比较慢。第八种是三维高斯溅射3D Gaussian Splatting简称3DGS这是目前最新、最热的一种方式。它把场景表示为大量的三维椭球高斯球每个椭球记录了位置、大小、方向、颜色还带有随视角变化的颜色效果和透明度。你可以把它想象成用一大堆半透明的泡泡来填满空间通过这些泡泡的叠加来还原出场景的外观。3DGS的惊人之处在于速度——它把渲染时间从神经辐射场的几秒钟缩短到了毫秒级别足以支持实时渲染。研究团队在论文中将这种速度跃升称为革命性的这一突破直接使得训练大型三维基础模型成为可能。这八种方式各有千秋研究团队用一张表格清晰地对比了它们的效率、精度和典型应用场景。大致来说RGB-D和多视角图像效率很高但有各自的局限点云和网格平衡适中体素网格和隐式场精度好但计算代价高三维高斯和CAD则在各自擅长的领域实时渲染、工业精度效率与精度兼得可以称得上是顶配。**二、机器怎么学会看三维世界从死记硬背到举一反三**弄清楚三维数据有哪些形态之后下一个问题是机器究竟怎么从这些数据中学到东西早期的学习方法有点像死记硬背。研究人员直接在三维空间里计算误差——这个点离正确位置差了多少那个体素的密度和真实情况差了多少——然后让网络去纠正自己。这种方法原理简单但计算量极大对于高精度的体素网格或精细曲面来说代价大得几乎不可接受。转折点出现在可微分渲染技术被引入之后。所谓可微分渲染简单说就是让从三维模型生成二维图像这个过程变得可以反向传播误差。正常渲染是单向的给定三维模型输出图像。可微分渲染让这个过程变成双向的不仅可以从三维生成图像还可以把生成的图像和真实图像的差距作为信号反向告诉三维模型你哪里画错了。这就像一个学生在纸上画素描老师不直接在素描上修改而是通过比较学生的画和真实照片告诉学生哪些地方画得不像让学生自己修改。在这个框架下神经辐射场NeRF应运而生。NeRF的核心思路是用一个神经网络来表示整个场景输入三维坐标和观察方向输出该位置的颜色和密度。通过让这个网络渲染出的图像尽量接近真实拍摄的多视角图像网络的参数就逐渐学会了场景的三维结构。但NeRF很慢因为渲染每一帧图像都要对每条光线上的大量点进行神经网络查询计算量惊人。三维高斯溅射则从另一个角度解决了这个问题——它抛弃了神经网络的隐式表示改用显式的高斯球并采用一种高度优化的光栅化渲染器可以理解为更直接、更快速的图像生成方式把渲染速度提升了几个数量级。这个突破不只是让渲染变快更重要的是它使得研究人员可以用渲染结果作为监督信号来训练更大、更复杂的三维模型打开了三维基础模型这扇大门。**三、看图说立体以二维监督学习三维的新范式**三维视觉领域还有一个核心挑战三维数据太难收集了。给二维图像打标注只需要人在图片上框框选选但给三维数据打标注需要精密的扫描设备、大量的人工校正成本高出一个数量级。于是研究人员开始问一个聪明的问题我们能不能只用大量的二维图像这类数据互联网上有几十亿张来训练三维理解模型这就催生了一批以图像平面为监督信号的端到端三维基础模型论文中详细介绍了这一批代表性工作。DUSt3R是其中的先驱之一。它的核心思路是给定两张从不同角度拍摄的图片直接预测出每张图片里每个像素对应的三维坐标点同时用置信度来衡量预测的可靠程度——不确定的地方置信度低确定的地方置信度高。整个训练过程不需要提前做多视角几何优化而是直接用真实三维坐标作为目标以带置信度加权的损失函数来引导网络学习。VGGT视觉几何基础Transformer则把这个想法推到了更大的规模让模型同时处理多张图片并且一次性预测出相机参数、深度图、三维点图和点的轨迹也就是同一个物理点在不同图片中的对应位置。这相当于训练了一个全能的三维理解助手一次输入一批图片它能同时告诉你每张照片是从哪里拍的、场景的深度长什么样、三维结构是什么。RayZer走了一条更极端的路它完全不使用三维数据作为监督而是把每张图片分解为场景和相机两个部分通过让模型在不同相机之间翻译场景来学习三维结构训练信号完全来自二维图像的重建质量。这就好比让一个从未离开二维平面的人通过大量观察不同角度的影子自学出对立体世界的理解。π?Pi-cubed解决了另一个棘手问题当输入的图片没有固定顺序时怎么办它设计了一种对图片顺序不敏感的学习方式无论你把图片打乱成什么顺序网络的输出都不会变。训练时同时优化局部点图和相对位姿两个目标让模型学到更鲁棒的几何理解。Depth Anything 3则把这个方向又推进了一步将深度估计和射线方向估计合并成一个统一的六维输出——每个像素不仅告诉你深度离相机多远还告诉你这条光线的方向从哪里来、往哪里去相当于把单目深度估计和相机几何推断统一在了一个模型里。**四、当生成遇上重建三维世界的双引擎驱动**除了从真实数据学习还有另一条路线用生成模型来补充缺失的三维信息或者反过来用三维重建来约束生成模型的输出。DreamFusion和Magic3D是这条路上的早期代表。它们的核心技术叫分数蒸馏采样Score Distillation Sampling原理是用一个在海量二维图片上训练好的生成模型比如Stable Diffusion那类扩散模型作为老师让三维神经场作为学生通过不断问老师这个视角看起来像吗来优化三维模型。这就好比你要捏一个泥塑但没有真实的参照物于是你用一个审美很好的朋友来评判根据朋友的反馈不断调整最终捏出一个各个角度看起来都令人满意的形状。更新的路线是原生三维生成基础模型。TRELLIS学习了一种结构化的三维隐空间表示可以从文本或图像生成三维内容并直接解码为辐射场、高斯球或网格等多种格式。SAM 3D则设计了一套模型在环的数据引擎——让生成模型自动产生候选三维数据再由人工审核筛选出高质量的样本这些样本反过来又用于训练更好的生成模型形成一个自我强化的循环。这种方式绕过了三维数据稀缺的瓶颈因为每一轮循环都会产生更多更好的训练数据。这种重建促进生成、生成补充重建的协同关系是论文中特别强调的一个趋势。两个方向不再是相互独立的赛道而是在共享的隐空间中相互促进形成一个持续优化的数据飞轮。**五、三维技术能做什么从重建到具身智能的全景图**理解了数据表达方式和学习方法之后论文用相当大的篇幅介绍这些技术能做什么也就是具体的下游应用这一部分的内容颇为宏大几乎构成了一幅三维视觉应用的全景图。三维重建是最直接的应用也是历史最悠久的方向。传统方法叫做运动中恢复结构SfM和多视角立体视觉MVS原理是从多张图片中找到匹配点通过几何计算推断出相机位置和场景三维结构。这类方法数学上很严谨但对图片质量要求高在纹理模糊或光线不均匀的场景下容易失败。现代方法用前文介绍的那些神经网络直接端到端地从图片预测三维结构即使只有一张图片、即使相机参数未知也能得到合理的结果。三维资产和场景生成是近年来热度极高的方向通俗说就是用文字或图片自动生成三维模型。现代方法先用多视角扩散模型生成从不同角度看物体的多张一致图片然后再用大型重建模型把这些图片快速转换为网格、三维高斯或三平面tri-plane表示。这个过程可以在几秒到几分钟内完成而以前的SDS方法往往需要几小时。更进一步研究者们还在尝试生成整个房间乃至整栋建筑的三维场景比如3D-SceneDreamer和AnyHome这两个框架可以根据文字描述生成可以在其中漫游的室内环境包括房间布局、家具摆放等具体细节。三维一致性视频生成是一个更新的交叉方向。大型视频生成模型能生成视觉上令人惊艳的画面但往往缺乏跨帧的几何一致性——从一帧到下一帧墙面可能突然弯曲人脸可能出现奇怪的变形。研究者们正在把三维知识注入视频生成模型以三维一致性作为奖励信号类似于这段视频里的几何关系合理吗来约束生成过程或者在视频生成的去噪过程中强制让特征与深度图或对极线对齐。Diffusion as Shader扩散作为着色器则进一步用密集的三维轨迹来精确控制生成视频中的运动实现了对生成内容的精细空间控制。四维渲染和三维世界模型是更前沿的方向目标是从静态三维进化到动态三维也就是理解和模拟物体随时间的运动和变化。四维高斯溅射在三维高斯的基础上引入了形变场把运动表示为三维结构随时间的演化而不是一系列不相关的二维帧从而实现了动态拓扑的实时渲染。三维世界模型的目标更大让模型能够预测未来状态为机器人规划提供支持。PointWorld和ParticleFormer等工作直接在三维点或粒子层面进行状态预测确保预测结果在时间上前后一致、在多视角下物理合理。WorldSimBench是评估这类模型的专用基准测试检验模型是否真的表现得像一个可用的物理模拟器。具身智能Embodied AI是所有这些技术最终落地的场景之一。让机器人理解三维世界、通过语言接受指令、在物理空间中执行任务这三个能力的整合就是空间智能在视觉-语言-动作系统中的体现。现代的三维视觉-语言-动作系统不再把图像像素直接映射到机械臂的关节角度而是在共享的三维表示空间中对感知、语言和控制进行统一建模。用三维点流或空间轨迹来表达意图使得机器人对视角变化更鲁棒也更容易在不同机器人平台之间迁移——毕竟同样的三维世界理解不管你是用四轴机械臂还是六轴机械臂来操作本质上是相同的。**六、数据集和基准测试推动进步的无名英雄**再好的算法没有数据也是空谈。论文用专门的篇幅梳理了三维视觉领域的数据集生态这部分内容对于理解整个领域的发展脉络同样不可或缺。研究团队整理了50个具有代表性的数据集时间跨度从2015年的ShapeNet一直延伸到2025年的最新数据集。通过这个列表可以清楚地看到这个领域的发展轨迹2020年前后出现了一个发布高峰随后每年都有稳定的新数据集涌现说明整个领域的数据基础设施在快速扩张而这种扩张往往与新的传感器技术或新的模型范式密切相关而非均匀线性的增长。从数据模态来看网格数据集50个中有28个涉及网格和多视角图像数据集25个最为常见而体素数据集3个和隐式场数据集1个极为稀少。这种分布不平衡反映了获取难度网格和图像相对容易生成或拍摄体素和隐式场通常需要从其他格式转换自然数量较少。从空间粒度来看以单个物体为中心的数据集18个和室内场景数据集13个占主导而户外场景和混合场景数据集则相对匮乏。这50个数据集中有几个值得单独介绍因为它们对整个领域产生了深远影响。ShapeNet是2015年发布的大型CAD数据集包含数十万个三维模型几乎所有三维物体分类、分割和生成的方法都在它上面做过测试可以说是三维视觉领域的ImageNet。ScanNet于2017年发布提供了室内场景的RGB-D扫描和语义标注是室内理解任务的标准基准。ScanNet是其2023年发布的升级版精度更高同时支持了包括三维高斯溅射在内的新型表示。Objaverse于2023年发布包含数百万个三维网格和对应的文字描述是训练多模态三维理解模型的重要资源。近年来还出现了一个新趋势数据集构建本身越来越模型感知也就是数据集的设计已经把特定模型范式的需求考虑进去了。比如InteriorGS直接提供了以三维高斯溅射格式标注的室内场景而不是只有网格或点云可以直接用于训练和评估高斯溅射相关方法。MegaSynth则用合成场景来大规模扩充重建模型的预训练数据。WorldSimBench更是在评估层面提出了新要求不仅测试重建精度还测试生成模型是否能在长期任务中表现得像一个真实可用的物理模拟器。尽管如此现有数据集生态仍有明显的不足。几乎没有一个数据集能同时满足多种模态点云、网格、高斯球、图像都有、时间一致性支持动态场景和开放世界泛化在各种未见场景中都有效这三个要求。研究团队明确指出填补这些空白是未来最紧迫的任务之一需要在数据规模、多样性、标注效率和合成-真实数据之间取得更好的平衡。**七、前路在哪里三个正在汇聚的方向**在梳理完现状之后论文在结论部分提出了三个前景广阔的研究方向值得单独展开。第一个方向是统一的基准测试和评估协议。目前室内场景数据集ScanNet、DL3DV-10K、物体数据集WildRGB-D和合成数据集PointOdyssey、MegaSynth、InteriorGS各自为政缺乏一个横跨对象、场景、动态场景的统一评估平台。研究团队认为未来需要能同时评估重建精度和生成模型行为是否符合物理规律的综合基准。第二个方向是跨模态和二维监督学习策略。互联网上有数十亿张二维图片这是远比三维数据更丰富的资源。如何从这些图片中提取几何信息、同时保持对三维世界的准确理解是一个既有理论深度又有实际价值的问题。前文提到的DUSt3R、VGGT、RayZer等工作都在朝这个方向努力但距离充分利用这些二维数据的潜力还有很长的路要走。第三个方向是可扩展的实时表示。三维高斯溅射已经在渲染效率上实现了质的飞跃但在大规模场景、动态场景和参数化CAD模型的生成和编辑方面仍有大量工作要做。如何在保持实时性的同时不牺牲精度如何在高斯球和网格、CAD等更适合工程应用的格式之间灵活转换是这个方向的核心问题。---归根结底这篇论文做的事情是在一个迅速扩张、四面开花的领域里用一张清晰的地图帮助读者找到自己的位置。它不是一篇宣扬某个新方法有多厉害的论文而是一篇认真整理了我们现在知道什么、我们还不知道什么的导航手册。对于普通人来说这项研究最直接的意义是你手机里的AR效果会越来越逼真自动驾驶汽车对周围环境的理解会越来越可靠将来的机器人助手也许真的能像人一样在三维空间中自如行动。这些不是遥远的科幻而是这篇菜谱所描绘的技术路线图上已经可以看到轮廓的事物。对于这个领域的研究者来说这张地图同样有价值——它清楚地标出了哪些地方是已经开垦的熟地哪些地方是尚待探索的荒野尤其是大规模多模态数据集的缺失、二维监督学习的潜力尚未充分挖掘以及动态四维世界建模的挑战这些都是未来值得投入的方向。如果你对这张地图的细节感兴趣可以在arXiv平台通过编号2606.04291查阅完整论文研究团队还在GitHub上维护了一个持续更新的数据集列表地址在论文首页有完整标注供社区持续参考和贡献。---QAQ1三维高斯溅射3DGS和神经辐射场NeRF有什么本质区别A神经辐射场把整个场景编码进一个神经网络渲染时对每条光线上的大量点查询网络速度慢每帧需要几秒甚至更长。三维高斯溅射则用大量显式的三维椭球高斯球直接表示场景配合高度优化的光栅化渲染器将渲染速度提升到毫秒级可以实时渲染。两者都以多视角图像作为输入但表示方式和渲染效率有本质差异3DGS更快、更适合实时应用NeRF理论上更灵活但更慢。Q2PointNet是什么为什么处理点云数据需要专门的网络A点云是三维空间中一堆没有固定顺序的散乱点而传统卷积神经网络需要数据排列在整齐的网格里比如图像的像素网格。PointNet是第一个直接处理无序点集的深度学习网络它用对称函数如最大池化来处理点的无序性使得不管点的输入顺序如何最终提取的特征都相同。PointNet之后PointNet、Point Transformer等方法进一步引入了层次化特征提取和注意力机制性能持续提升。Q3二维监督学习三维是什么意思为什么这个方向重要A三维数据采集成本极高而互联网上有数十亿张二维图片。二维监督学习三维是指用大量普通图片而不是昂贵的三维扫描数据来训练三维理解模型核心技术是可微分渲染——让模型渲染出图片再把渲染结果和真实图片的差距作为学习信号反向传播。DUSt3R、VGGT等方法都是这个方向的代表它们能在几乎不依赖三维标注的情况下从图片直接预测出三维坐标和相机位置大幅降低了三维理解的数据门槛。
当3D视觉遇上“菜谱“:布朗大学等机构联手绘制的三维视觉全景地图
这项由布朗大学、马里兰大学、宾夕法尼亚大学、南加州大学、纽约大学、悉尼大学和Stability AI联合完成的综述研究以预印本形式发布于2026年6月论文编号为arXiv:2606.04291有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。**一本写给所有人的三维世界指南**假设你拿起一个苹果你的大脑在0.1秒内就能判断出它的形状、大小、表面纹理甚至能预测它落到桌上会怎么滚动。这种能力在人类看来稀松平常但对于计算机来说却是一道横亘多年的高墙。三维视觉简单说就是让机器看懂立体世界的技术近年来突飞猛进已经渗透进自动驾驶汽车、工业机器人、增强现实眼镜乃至数字文物复原等几乎每一个前沿领域。然而这个领域有一个让外人望而生畏的特点它像一个巨大的工具箱里面装满了形形色色的工具每种工具有自己的名字、用法和适用场景而且这些工具之间的关系错综复杂连专业研究者有时也会迷失其中。正因如此这支来自多所顶尖机构的研究团队决定做一件听起来朴实、实则极具价值的事情——写一本菜谱。他们将这篇论文命名为《三维视觉菜谱数据、学习范式与应用》其核心思路是不论你是刚入门的学生还是想换赛道的工程师都应该有一张清晰的地图告诉你三维视觉这片森林里有哪些树、这些树长什么样、它们各自有什么用处以及最近又长出了哪些新枝丫。这篇菜谱的独特之处在于它不是从算法架构出发也不是只盯着某一个具体任务而是从数据本身出发——先弄清楚三维世界的数据有哪些形态再讲这些数据怎么被机器学习最后落到实际应用。这种以数据为核心的视角在现有综述中相当罕见。**一、三维数据的八种语言计算机看世界的不同方式**要理解三维视觉首先要弄懂一个根本问题计算机究竟用什么方式来存储和理解一个三维物体这就好比问你可以用素描、油画、雕塑、乐高积木、3D打印模型或者数学公式来表达同一个苹果每种方式都有自己的优势和局限。研究团队系统梳理了三维视觉领域最主流的八种数据表达方式理解这八种语言是读懂整个领域的基础。第一种叫做RGB-D数据这也许是最接近普通人日常直觉的一种。RGB是彩色图像D是深度Distance/Depth也就是每个像素离相机有多远。微软Kinect体感设备就能产生这种数据。你可以把它理解为普通照片加上一张距离地图每个像素不仅有颜色还标注了这里距离我1.2米那里距离我3.5米。这种方式计算起来非常高效就像在一张平面图上多加一层信息所以广泛用于室内场景理解、人体姿态识别和即时定位与地图构建俗称SLAM可以理解为机器人边走边画地图。它的局限是只能看到正面背后和侧面被遮挡的部分无法获知。第二种是多视角图像。这相当于拿着相机围着一个物体转一圈从不同角度拍很多张照片然后把这些照片和每张照片对应的相机位置一起打包。这种方式在视觉上保真度极高——毕竟照片本身就很逼真——但三维几何形状需要通过计算推断出来而不是直接测量。谷歌街景、神经辐射场后文会详细介绍都以此为输入。第三种是点云。点云可以理解为用激光笔在物体表面打了密密麻麻的点每个点记录它在空间中的三维坐标(x, y, z)有时还附带颜色或表面法线方向。激光雷达LiDAR产生的就是点云自动驾驶汽车顶上那个旋转的圆柱体就是激光雷达。点云的优点是直接测量、真实准确缺点是这些点杂乱无章没有固定的顺序或连接关系所以传统的图像处理神经网络不能直接用需要专门设计的算法。PointNet就是第一个专门处理点云的深度学习网络它能直接对这些散乱的点进行分析。第四种是体素网格Voxels。如果点云像散落的沙粒那体素网格就像用整齐的正方体积木把空间切割成一个个小格子就像三维版的像素Pixel因此叫体素Voxel。每个格子可以标记有东西或没东西也可以存储颜色、密度等信息。这种方式天然适合三维卷积神经网络处理就像二维图像适合二维卷积网络一样。但问题在于如果你想要高精度格子就得很小、数量就得很多内存消耗会呈三次方急剧膨胀代价非常昂贵。第五种是网格Mesh。网格是由顶点、边和面通常是三角形面构成的表面模型就像用三角形拼贴出一个物体的外壳。游戏里的角色模型、动画电影里的人物几乎都是网格。网格既能表达形状又能表达拓扑也就是哪些部分是连着的非常紧凑适合渲染和物理仿真。难点在于网格的不规则性——三角形的数量、大小、连接方式千变万化标准的深度学习框架对这种不规则数据处理起来很吃力所以很多流程会先把网格转换成点云或体素再处理。第六种是CAD模型全称计算机辅助设计模型。与前几种侧重于长什么样不同CAD模型更关注怎么造出来的。它用数学公式精确描述曲面最常见的是NURBS非均匀有理B样条曲线可以把它理解为用几个控制把手来精确操控一段光滑曲线或曲面。工业零件设计、汽车车身建模用的就是CAD。CAD模型的精度极高可以直接用于数控加工但获取方式不像拍照那么简单通常需要工程师手工设计或者从扫描数据逆向工程重建。第七种是隐式场Implicit Field这是近年来随着神经网络技术兴起的新方式代表作是神经辐射场NeRF和占用网络Occupancy Networks。传统方式都是用明确的点、面、格子来表示形状而隐式场则把整个三维形状编码进一个神经网络的参数里。你给它一个三维坐标它告诉你那里是里面还是外面或者那个位置从某个角度看起来是什么颜色、有多亮。这种方式理论上精度极高能表达非常精细的细节但训练和渲染都比较慢。第八种是三维高斯溅射3D Gaussian Splatting简称3DGS这是目前最新、最热的一种方式。它把场景表示为大量的三维椭球高斯球每个椭球记录了位置、大小、方向、颜色还带有随视角变化的颜色效果和透明度。你可以把它想象成用一大堆半透明的泡泡来填满空间通过这些泡泡的叠加来还原出场景的外观。3DGS的惊人之处在于速度——它把渲染时间从神经辐射场的几秒钟缩短到了毫秒级别足以支持实时渲染。研究团队在论文中将这种速度跃升称为革命性的这一突破直接使得训练大型三维基础模型成为可能。这八种方式各有千秋研究团队用一张表格清晰地对比了它们的效率、精度和典型应用场景。大致来说RGB-D和多视角图像效率很高但有各自的局限点云和网格平衡适中体素网格和隐式场精度好但计算代价高三维高斯和CAD则在各自擅长的领域实时渲染、工业精度效率与精度兼得可以称得上是顶配。**二、机器怎么学会看三维世界从死记硬背到举一反三**弄清楚三维数据有哪些形态之后下一个问题是机器究竟怎么从这些数据中学到东西早期的学习方法有点像死记硬背。研究人员直接在三维空间里计算误差——这个点离正确位置差了多少那个体素的密度和真实情况差了多少——然后让网络去纠正自己。这种方法原理简单但计算量极大对于高精度的体素网格或精细曲面来说代价大得几乎不可接受。转折点出现在可微分渲染技术被引入之后。所谓可微分渲染简单说就是让从三维模型生成二维图像这个过程变得可以反向传播误差。正常渲染是单向的给定三维模型输出图像。可微分渲染让这个过程变成双向的不仅可以从三维生成图像还可以把生成的图像和真实图像的差距作为信号反向告诉三维模型你哪里画错了。这就像一个学生在纸上画素描老师不直接在素描上修改而是通过比较学生的画和真实照片告诉学生哪些地方画得不像让学生自己修改。在这个框架下神经辐射场NeRF应运而生。NeRF的核心思路是用一个神经网络来表示整个场景输入三维坐标和观察方向输出该位置的颜色和密度。通过让这个网络渲染出的图像尽量接近真实拍摄的多视角图像网络的参数就逐渐学会了场景的三维结构。但NeRF很慢因为渲染每一帧图像都要对每条光线上的大量点进行神经网络查询计算量惊人。三维高斯溅射则从另一个角度解决了这个问题——它抛弃了神经网络的隐式表示改用显式的高斯球并采用一种高度优化的光栅化渲染器可以理解为更直接、更快速的图像生成方式把渲染速度提升了几个数量级。这个突破不只是让渲染变快更重要的是它使得研究人员可以用渲染结果作为监督信号来训练更大、更复杂的三维模型打开了三维基础模型这扇大门。**三、看图说立体以二维监督学习三维的新范式**三维视觉领域还有一个核心挑战三维数据太难收集了。给二维图像打标注只需要人在图片上框框选选但给三维数据打标注需要精密的扫描设备、大量的人工校正成本高出一个数量级。于是研究人员开始问一个聪明的问题我们能不能只用大量的二维图像这类数据互联网上有几十亿张来训练三维理解模型这就催生了一批以图像平面为监督信号的端到端三维基础模型论文中详细介绍了这一批代表性工作。DUSt3R是其中的先驱之一。它的核心思路是给定两张从不同角度拍摄的图片直接预测出每张图片里每个像素对应的三维坐标点同时用置信度来衡量预测的可靠程度——不确定的地方置信度低确定的地方置信度高。整个训练过程不需要提前做多视角几何优化而是直接用真实三维坐标作为目标以带置信度加权的损失函数来引导网络学习。VGGT视觉几何基础Transformer则把这个想法推到了更大的规模让模型同时处理多张图片并且一次性预测出相机参数、深度图、三维点图和点的轨迹也就是同一个物理点在不同图片中的对应位置。这相当于训练了一个全能的三维理解助手一次输入一批图片它能同时告诉你每张照片是从哪里拍的、场景的深度长什么样、三维结构是什么。RayZer走了一条更极端的路它完全不使用三维数据作为监督而是把每张图片分解为场景和相机两个部分通过让模型在不同相机之间翻译场景来学习三维结构训练信号完全来自二维图像的重建质量。这就好比让一个从未离开二维平面的人通过大量观察不同角度的影子自学出对立体世界的理解。π?Pi-cubed解决了另一个棘手问题当输入的图片没有固定顺序时怎么办它设计了一种对图片顺序不敏感的学习方式无论你把图片打乱成什么顺序网络的输出都不会变。训练时同时优化局部点图和相对位姿两个目标让模型学到更鲁棒的几何理解。Depth Anything 3则把这个方向又推进了一步将深度估计和射线方向估计合并成一个统一的六维输出——每个像素不仅告诉你深度离相机多远还告诉你这条光线的方向从哪里来、往哪里去相当于把单目深度估计和相机几何推断统一在了一个模型里。**四、当生成遇上重建三维世界的双引擎驱动**除了从真实数据学习还有另一条路线用生成模型来补充缺失的三维信息或者反过来用三维重建来约束生成模型的输出。DreamFusion和Magic3D是这条路上的早期代表。它们的核心技术叫分数蒸馏采样Score Distillation Sampling原理是用一个在海量二维图片上训练好的生成模型比如Stable Diffusion那类扩散模型作为老师让三维神经场作为学生通过不断问老师这个视角看起来像吗来优化三维模型。这就好比你要捏一个泥塑但没有真实的参照物于是你用一个审美很好的朋友来评判根据朋友的反馈不断调整最终捏出一个各个角度看起来都令人满意的形状。更新的路线是原生三维生成基础模型。TRELLIS学习了一种结构化的三维隐空间表示可以从文本或图像生成三维内容并直接解码为辐射场、高斯球或网格等多种格式。SAM 3D则设计了一套模型在环的数据引擎——让生成模型自动产生候选三维数据再由人工审核筛选出高质量的样本这些样本反过来又用于训练更好的生成模型形成一个自我强化的循环。这种方式绕过了三维数据稀缺的瓶颈因为每一轮循环都会产生更多更好的训练数据。这种重建促进生成、生成补充重建的协同关系是论文中特别强调的一个趋势。两个方向不再是相互独立的赛道而是在共享的隐空间中相互促进形成一个持续优化的数据飞轮。**五、三维技术能做什么从重建到具身智能的全景图**理解了数据表达方式和学习方法之后论文用相当大的篇幅介绍这些技术能做什么也就是具体的下游应用这一部分的内容颇为宏大几乎构成了一幅三维视觉应用的全景图。三维重建是最直接的应用也是历史最悠久的方向。传统方法叫做运动中恢复结构SfM和多视角立体视觉MVS原理是从多张图片中找到匹配点通过几何计算推断出相机位置和场景三维结构。这类方法数学上很严谨但对图片质量要求高在纹理模糊或光线不均匀的场景下容易失败。现代方法用前文介绍的那些神经网络直接端到端地从图片预测三维结构即使只有一张图片、即使相机参数未知也能得到合理的结果。三维资产和场景生成是近年来热度极高的方向通俗说就是用文字或图片自动生成三维模型。现代方法先用多视角扩散模型生成从不同角度看物体的多张一致图片然后再用大型重建模型把这些图片快速转换为网格、三维高斯或三平面tri-plane表示。这个过程可以在几秒到几分钟内完成而以前的SDS方法往往需要几小时。更进一步研究者们还在尝试生成整个房间乃至整栋建筑的三维场景比如3D-SceneDreamer和AnyHome这两个框架可以根据文字描述生成可以在其中漫游的室内环境包括房间布局、家具摆放等具体细节。三维一致性视频生成是一个更新的交叉方向。大型视频生成模型能生成视觉上令人惊艳的画面但往往缺乏跨帧的几何一致性——从一帧到下一帧墙面可能突然弯曲人脸可能出现奇怪的变形。研究者们正在把三维知识注入视频生成模型以三维一致性作为奖励信号类似于这段视频里的几何关系合理吗来约束生成过程或者在视频生成的去噪过程中强制让特征与深度图或对极线对齐。Diffusion as Shader扩散作为着色器则进一步用密集的三维轨迹来精确控制生成视频中的运动实现了对生成内容的精细空间控制。四维渲染和三维世界模型是更前沿的方向目标是从静态三维进化到动态三维也就是理解和模拟物体随时间的运动和变化。四维高斯溅射在三维高斯的基础上引入了形变场把运动表示为三维结构随时间的演化而不是一系列不相关的二维帧从而实现了动态拓扑的实时渲染。三维世界模型的目标更大让模型能够预测未来状态为机器人规划提供支持。PointWorld和ParticleFormer等工作直接在三维点或粒子层面进行状态预测确保预测结果在时间上前后一致、在多视角下物理合理。WorldSimBench是评估这类模型的专用基准测试检验模型是否真的表现得像一个可用的物理模拟器。具身智能Embodied AI是所有这些技术最终落地的场景之一。让机器人理解三维世界、通过语言接受指令、在物理空间中执行任务这三个能力的整合就是空间智能在视觉-语言-动作系统中的体现。现代的三维视觉-语言-动作系统不再把图像像素直接映射到机械臂的关节角度而是在共享的三维表示空间中对感知、语言和控制进行统一建模。用三维点流或空间轨迹来表达意图使得机器人对视角变化更鲁棒也更容易在不同机器人平台之间迁移——毕竟同样的三维世界理解不管你是用四轴机械臂还是六轴机械臂来操作本质上是相同的。**六、数据集和基准测试推动进步的无名英雄**再好的算法没有数据也是空谈。论文用专门的篇幅梳理了三维视觉领域的数据集生态这部分内容对于理解整个领域的发展脉络同样不可或缺。研究团队整理了50个具有代表性的数据集时间跨度从2015年的ShapeNet一直延伸到2025年的最新数据集。通过这个列表可以清楚地看到这个领域的发展轨迹2020年前后出现了一个发布高峰随后每年都有稳定的新数据集涌现说明整个领域的数据基础设施在快速扩张而这种扩张往往与新的传感器技术或新的模型范式密切相关而非均匀线性的增长。从数据模态来看网格数据集50个中有28个涉及网格和多视角图像数据集25个最为常见而体素数据集3个和隐式场数据集1个极为稀少。这种分布不平衡反映了获取难度网格和图像相对容易生成或拍摄体素和隐式场通常需要从其他格式转换自然数量较少。从空间粒度来看以单个物体为中心的数据集18个和室内场景数据集13个占主导而户外场景和混合场景数据集则相对匮乏。这50个数据集中有几个值得单独介绍因为它们对整个领域产生了深远影响。ShapeNet是2015年发布的大型CAD数据集包含数十万个三维模型几乎所有三维物体分类、分割和生成的方法都在它上面做过测试可以说是三维视觉领域的ImageNet。ScanNet于2017年发布提供了室内场景的RGB-D扫描和语义标注是室内理解任务的标准基准。ScanNet是其2023年发布的升级版精度更高同时支持了包括三维高斯溅射在内的新型表示。Objaverse于2023年发布包含数百万个三维网格和对应的文字描述是训练多模态三维理解模型的重要资源。近年来还出现了一个新趋势数据集构建本身越来越模型感知也就是数据集的设计已经把特定模型范式的需求考虑进去了。比如InteriorGS直接提供了以三维高斯溅射格式标注的室内场景而不是只有网格或点云可以直接用于训练和评估高斯溅射相关方法。MegaSynth则用合成场景来大规模扩充重建模型的预训练数据。WorldSimBench更是在评估层面提出了新要求不仅测试重建精度还测试生成模型是否能在长期任务中表现得像一个真实可用的物理模拟器。尽管如此现有数据集生态仍有明显的不足。几乎没有一个数据集能同时满足多种模态点云、网格、高斯球、图像都有、时间一致性支持动态场景和开放世界泛化在各种未见场景中都有效这三个要求。研究团队明确指出填补这些空白是未来最紧迫的任务之一需要在数据规模、多样性、标注效率和合成-真实数据之间取得更好的平衡。**七、前路在哪里三个正在汇聚的方向**在梳理完现状之后论文在结论部分提出了三个前景广阔的研究方向值得单独展开。第一个方向是统一的基准测试和评估协议。目前室内场景数据集ScanNet、DL3DV-10K、物体数据集WildRGB-D和合成数据集PointOdyssey、MegaSynth、InteriorGS各自为政缺乏一个横跨对象、场景、动态场景的统一评估平台。研究团队认为未来需要能同时评估重建精度和生成模型行为是否符合物理规律的综合基准。第二个方向是跨模态和二维监督学习策略。互联网上有数十亿张二维图片这是远比三维数据更丰富的资源。如何从这些图片中提取几何信息、同时保持对三维世界的准确理解是一个既有理论深度又有实际价值的问题。前文提到的DUSt3R、VGGT、RayZer等工作都在朝这个方向努力但距离充分利用这些二维数据的潜力还有很长的路要走。第三个方向是可扩展的实时表示。三维高斯溅射已经在渲染效率上实现了质的飞跃但在大规模场景、动态场景和参数化CAD模型的生成和编辑方面仍有大量工作要做。如何在保持实时性的同时不牺牲精度如何在高斯球和网格、CAD等更适合工程应用的格式之间灵活转换是这个方向的核心问题。---归根结底这篇论文做的事情是在一个迅速扩张、四面开花的领域里用一张清晰的地图帮助读者找到自己的位置。它不是一篇宣扬某个新方法有多厉害的论文而是一篇认真整理了我们现在知道什么、我们还不知道什么的导航手册。对于普通人来说这项研究最直接的意义是你手机里的AR效果会越来越逼真自动驾驶汽车对周围环境的理解会越来越可靠将来的机器人助手也许真的能像人一样在三维空间中自如行动。这些不是遥远的科幻而是这篇菜谱所描绘的技术路线图上已经可以看到轮廓的事物。对于这个领域的研究者来说这张地图同样有价值——它清楚地标出了哪些地方是已经开垦的熟地哪些地方是尚待探索的荒野尤其是大规模多模态数据集的缺失、二维监督学习的潜力尚未充分挖掘以及动态四维世界建模的挑战这些都是未来值得投入的方向。如果你对这张地图的细节感兴趣可以在arXiv平台通过编号2606.04291查阅完整论文研究团队还在GitHub上维护了一个持续更新的数据集列表地址在论文首页有完整标注供社区持续参考和贡献。---QAQ1三维高斯溅射3DGS和神经辐射场NeRF有什么本质区别A神经辐射场把整个场景编码进一个神经网络渲染时对每条光线上的大量点查询网络速度慢每帧需要几秒甚至更长。三维高斯溅射则用大量显式的三维椭球高斯球直接表示场景配合高度优化的光栅化渲染器将渲染速度提升到毫秒级可以实时渲染。两者都以多视角图像作为输入但表示方式和渲染效率有本质差异3DGS更快、更适合实时应用NeRF理论上更灵活但更慢。Q2PointNet是什么为什么处理点云数据需要专门的网络A点云是三维空间中一堆没有固定顺序的散乱点而传统卷积神经网络需要数据排列在整齐的网格里比如图像的像素网格。PointNet是第一个直接处理无序点集的深度学习网络它用对称函数如最大池化来处理点的无序性使得不管点的输入顺序如何最终提取的特征都相同。PointNet之后PointNet、Point Transformer等方法进一步引入了层次化特征提取和注意力机制性能持续提升。Q3二维监督学习三维是什么意思为什么这个方向重要A三维数据采集成本极高而互联网上有数十亿张二维图片。二维监督学习三维是指用大量普通图片而不是昂贵的三维扫描数据来训练三维理解模型核心技术是可微分渲染——让模型渲染出图片再把渲染结果和真实图片的差距作为学习信号反向传播。DUSt3R、VGGT等方法都是这个方向的代表它们能在几乎不依赖三维标注的情况下从图片直接预测出三维坐标和相机位置大幅降低了三维理解的数据门槛。