3.55 面向视觉定位与建图的深度学习:综述

3.55 面向视觉定位与建图的深度学习:综述 这是视觉定位与建图领域首个全面覆盖深度学习方法的权威综述系统梳理了数据驱动方案如何替代传统几何 / 物理建模回答两大核心问题深度学习是否适用于定位建图、如何应用深度学习并构建统一分类框架。一、核心定位与背景研究价值传统 SLAM / 视觉定位依赖人工设计特征SIFT、ORB与几何约束对光照、动态、低纹理场景鲁棒性差深度学习以数据驱动方式自动提取特征适配复杂环境成为下一代空间感知核心方向。覆盖范围视觉里程计VO、全局重定位、建图、回环检测与 SLAM 后端跨机器人、CV、机器学习三大学科。二、整体分类框架四大模块1. 增量运动估计视觉里程计 VO核心目标连续估计相机位姿变换重建全局轨迹。三类方法有监督 VODeepVOCNNRNN、DAVO注意力机制需真值位姿精度高但标注成本大。自监督 VOSfmLearner、UnDeepVO、GeoNet以视图合成 / 光度损失为监督无需标注泛化性强解决单目尺度模糊、动态物体干扰问题。混合 VOD3VO、CNN-SVO融合深度学习深度 / 不确定性预测与传统几何 VO精度超越纯学习 / 纯几何方法。2. 全局重定位核心目标在已知地图中获取相机绝对位姿用于追踪丢失恢复、漂移修正。两类地图2D 地图重定位显式图像检索 相对位姿回归RelocNet、CamNet。隐式端到端 6DoF 回归PoseNet 系列、AtLoc、MS-Transformer。3D 地图重定位局部描述子匹配SuperPoint、D2-Net、HF-Net建立 2D-3D 对应。场景坐标回归DSAC/*、DSAC、KFNet可微 RANSAC 优化端到端求解位姿。3. 建图几何建图深度估计、点云、网格、体素、隐式曲面DeepSDF、NeRF。语义建图SemanticFusion、PanopticFusion融合语义分割与 3D 地图支持高层理解。隐式建图CodeSLAM、iMAP、NICE-SLAM用神经网络编码场景紧凑且可优化。4. 回环检测与 SLAM 后端回环检测BoW→CNN 特征→NetVLAD基于深度特征提升视角 / 光照鲁棒性。局部优化BA-Net、LS-Net可微光束平差在特征空间优化。全局优化图优化 深度学习预测修正累积漂移保证系统一致性。三、关键结论深度学习的三大优势自动提取鲁棒特征适配弱纹理、光照变化、动态环境。实现语义 - 几何融合支撑高层机器人任务。自监督 / 在线学习可自适应新场景降低部署成本。应用范式作为通用拟合器端到端位姿回归。解决数据关联重定位、回环、语义标注。特征学习与几何先验结合混合架构最优。自监督训练从无标注视频学习几何。现存局限大模型算力需求高移动端部署受限。泛化性与可解释性不足安全性待验证。动态场景、极端光照仍有挑战。