G4Splat:用几何骨架为生成式先验“立规矩”——ICLR 2026 稀疏视角三维重建新范式

G4Splat:用几何骨架为生成式先验“立规矩”——ICLR 2026 稀疏视角三维重建新范式 如果说三维重建是计算机视觉领域的“圣杯”那么G4SplatGeometry-Guided Gaussian Splatting with Generative Prior无疑为争夺这顶桂冠带来了一个新的方向。这篇由清华大学、北京大学及北京通用人工智能研究院联合完成被ICLR 2026收录的论文通过将精确的几何引导与生成式先验深度耦合为“从稀疏视角下如何高质量重建三维场景”这一经典难题给出了一个兼顾几何忠实度和外观真实感的前沿答案。本文将带你从动因到实现从理论到代码对这一算法进行一次彻底剖析。 一、引言为什么带相机的手机还无法成为“3D扫描仪”想象这样一个场景你拿起手机对着心爱的书房随手拍了十几张照片。你期待重建出的是一个细节丰富、完整无缺的3D房间然而现实却是镜头没扫过的墙壁出现了巨大的“黑洞”书柜的侧面因为视角缺失而变得扭曲。这就是当前稀疏视角 3D 重建所面临的真实困境。现有的方法即使是最先进的3D 高斯泼溅3DGS, 3D Gaussian Splatting也极度依赖“多方位、全覆盖”的密集视角输入。当输入视角稀疏时未经充分约束的高斯点会在看不见的区域“野蛮生长”导致几何空洞或大量飞溅的浮点伪影。为了“脑补”出缺失的区域学术界近年兴起了将生成先验引入 3D 重建的思路即让 AI“猜测”画面背后应该有什么。然而现有路线存在两大瓶颈几何失真生成模型缺乏可靠的几何支撑生成的“猜测”虽然纹理看起来像但底层的三维结构严重变形甚至与真实物理世界不符。视角不一致不同视角下生成的图像缺乏三维空间的逻辑自洽。当你旋转画面时物体会像水面倒影一样发生闪烁或流动感。面对这两大难题G4Splat 的核心洞见在于精确的几何结构才是有效利用生成先验的根本前提。它不是让 AI 凭空猜测而是构建一个可靠的 3D 几何骨架再让 AI 在这个骨架上“作画”。 二、核心矛盾与拆解为什么“先随便猜再修补”是错的在 G4Splat 出现之前多数方法采用的是“先训练后扩散”的流程先用原始 3DGS 粗糙训练出一个模型再训练一个通用的扩散模型去修复缺失区域的纹理。这种思路存在一个根本性的陷阱修复过程的成败极大程度取决于被修复的图像在“已知区域”的质量。然而由于缺乏可靠的几何监督3DGS 在稀疏视角下即使在观察到的区域也会产生模糊甚至畸变。如果连现有视角都是错的扩散模型在空区域上的“修复”本质上就成了一个没有坚实根基的空中楼阁。G4Splat 对此作出了精确的诊断问题的根源在于这些方法忽视了场景中一个无处不在的强大几何先验——平面结构。在室内场景墙壁、地板是平面在城市环境建筑立面、道路也是平面。只要我们能从已知视角中精确地恢复出这些平面的三维位置和朝向就等于为“待补全”的区域搭建了一个“脚手架”。技术亮点 1平面感知的几何建模G4Splat 的第一步就是提取这个“几何脚手架”。逐视图平面提取算法首先从输入的稀疏图像中利用法线贴图和 SAM 分割模块提取每个视角下的 2D 平面 MASK。这些 MASK 不仅识别了墙面还识别了门、地板等具有平面属性的区域。全局平面合并与传播将这些从不同视角提取的局部平面 MASK通过三维点云的后投影和聚类对齐并合成为一个覆盖整个场景的全局三维平面。可靠深度图生成获得这些全局三维平面后它们便能作为“绝对尺度的几何锚点”被用来对齐和修正那些尺度不一的单目深度估计结果从而在已观测和尚未观测的平面区域生成精确到公制尺度的深度图。 三、算法全景G4Splat 的三步走策略基于构建好的可靠几何“骨架”G4Splat 设计了一个包含三个关键环节的优化流水线初始 3DGS 几何优化不单纯依赖 RGB 误差而是利用推导出的精确深度图作为强监督信号训练出一个几何结构稳定、空洞极少的基础 3DGS 模型。几何引导的生成式补全识别并采样当前 3DGS 模型中几何最不确定的视图区域并采用强大的视频扩散模型Video Diffusion Models为这些视角补全真实感纹理。一致性增强的精细化微调将生成的图像作为“伪真值”并用几何引导生成的可见性掩膜来避免引入错误信息。通过联合优化最终实现具有高多视角一致性的场景精修。 四、关键技术的数学原理深度剖析G4Splat 的每一处创新背后都有坚实的数学原理作为支撑。4.1 平面感知的深度解算G4Splat 首先利用平面结构解决单目深度估计的“尺度歧义性”。对任意一帧图像其像素对应的三维点 (P) 满足平面方程 (N^T P d)。对于平面上的像素 (p)深度 (D) 满足D d N T K − 1 [ p x , p y , 1 ] T D \frac{d}{N^T K^{-1} [p_x, p_y, 1]^T}DNTK−1[px​,py​,1]Td​其中 (N) 是平面法向量(d) 是相机到平面的距离(K) 是相机内参矩阵。利用三角化出的三维点云和平面分割可以联合优化所有可见平面参数 ({N_i, d_i}_{i1}^{m})。这些全局平面的精确几何信息不仅提供了米制深度监督还通过线性插值向非平面区域传播几何约束最终输出在已观测和未观测区域都高度可靠的几何先验。4.2 几何引导的视频扩散补全完成初步几何建模后G4Splat 使用一个视频扩散模型对缺失区域进行补全。其目标是从纯噪声 (x_T^{(k)}) 开始逐步去噪生成高质量的伪图像。生成器网络的核心是在一个大型且复杂的视频-文本数据集上预训练学习一个丰富的流形将粗糙图像映射到高保真图像。特别地G4Splat 的扩散模型引入了几何条件信号。除了文本描述、最近邻训练视图等条件外还将在 4.1 节得到的深度图 (D)和可见性掩膜 (M_v)作为空间条件注入到去噪网络中。网络会遵循 “此处被遮挡应根据深度和语义补全为材质 A” 这样的指令而不是盲目生成无关内容。4.3 一致性驱动的联合微调当视频扩散模型生成了图像序列后必须应对生成结果中的“幻觉”问题。为此G4Splat 设计了联合优化目标其总损失函数为L total L RGB ( I render , I gt ) λ prior ⋅ L prior ( I render , I pseudo ) L_{\text{total}} L_{\text{RGB}}(\mathcal{I}_{\text{render}}, \mathcal{I}_{\text{gt}}) \lambda_{\text{prior}} \cdot L_{\text{prior}}(\mathcal{I}_{\text{render}}, \mathcal{I}_{\text{pseudo}})Ltotal​LRGB​(Irender​,Igt​)λprior​⋅Lprior​(Irender​,Ipseudo​)(L_{\text{RGB}}) 是原始的 3DGS 损失。(L_{\text{prior}}) 是生成先验损失用于约束未观测区域。在 (L_{\text{prior}}) 中引入一个动态几何掩膜 (M_{\text{dyn}})只有在 (M_{\text{dyn}}) 置信度高且多视图几何一致的区域才允许生成先验 (I_{\text{pseudo}}) 参与微调。最终通过以下更新规则联合优化 3DGS 模型θ ← θ − η ∇ θ 1 N ∑ i [ M conf ( x i ) ⋅ L RGB ( x i ) ] \theta \leftarrow \theta - \eta \nabla_{\theta} \frac{1}{N} \sum_{i} \left[ M_{\text{conf}}(x_i) \cdot L_{\text{RGB}}(x_i) \right]θ←θ−η∇θ​N1​i∑​[Mconf​(xi​)⋅LRGB​(xi​)] 五、评估体系实验数据与性能分析研究者在Replica、ScanNet、DeepBlending、Mip-NeRF 360等标准数据集上进行了详尽实验。5.1 定量指标全面领先在 9 视图输入的 ScanNet 数据集上G4Splat 的 PSNR 达到26.93 dB显著优于其他方法在几何精度上Depth L1 误差仅为0.148 米比第二名降低了约30%在外观一致性指标 LPIPS 上也取得了全面领先。5.2 定性可视化对比定性结果表明标准 3DGS在稀疏视图区域直接崩溃充满浮点数与空洞。仅用深度正则化的 3DGS几何明显改善但纹理模糊如书本内容无法辨识。仅用生成先验的方法纹理看起来更真实但可能出现几何形变如扭曲的凳子腿。G4Splat完整版几何稳定且纹理清晰模糊和扭曲被抑制完成了令人信服的场景补全。5.3 探索“单视图”与“无位姿视频”的边界G4Splat 最大的亮点之一是其对输入条件的强泛化性。论文展示了 G4Splat 在单张图像输入下重建出大尺度室内场景的能力。利用通用的单目深度/法线估计器作为初始信号再启动 G4Splat 的平面感知优化最终输出的 3D 高斯覆盖场景大部分可见区域且与真实三维结构保持一致。同样面对一段随意拍摄的monocular unposed videoG4Splat 也能在没有 COLMAP 位姿估计的情况下同步解算位姿、构建场景几何并推测出未拍摄区域的细节。 六、局限与展望G4Splat 的未来在何方尽管 G4Splat 在稀疏视角重建上表现惊艳但它依然存在一些局限性这也为其未来的演进方向留下了想象空间对非结构化场景的适应性平面假设在结构化环境如室内中非常有效但当面对茂密的树林、复杂的地形等高度非结构化环境时如何拓展其几何先验是一个开放性难题。计算开销与效率虽然 3DGS 本身推理速度快但训练 G4Splat 依然需要较长时间。与 4D 动态场景的融合目前处理的是静态场景。未来若能结合时空编码将其拓展至 4D 动态重建将拥有更广阔的应用天地。 七、结语G4Splat 并不只是提出了一项新技术它更深刻地揭示了生成式模型在三维重建中扮演“艺术家”而非“魔术师”的正确姿态。这项来自清华大学、北京大学及 BIGAI 的 ICLR 2026 研究成果已经为你揭开了它的神秘面纱。希望通过这篇详细的算法解析能帮你真正理解 G4Splat 的智慧并在你自己的研究与开发中获得启发与帮助。 项目信息链接论文链接https://arxiv.org/abs/2510.12099项目主页https://dali-jack.github.io/g4splat-web/代码仓库https://github.com/DaLi-Jack/G4Splat在代码开源、研究环境日益成熟的今天G4Splat 提出的“几何引导生成”范式极有可能成为连接传统多视图几何与新兴生成式 AI 的关键桥梁。