LSS之后,BEV感知的演进:从纯视觉到多模态融合,我们还需要‘Lift-Splat’吗?

LSS之后,BEV感知的演进:从纯视觉到多模态融合,我们还需要‘Lift-Splat’吗? BEV感知的技术演进从LSS范式到多模态融合的未来路径当特斯拉在2021年AI Day首次公开展示纯视觉BEV感知系统时整个自动驾驶行业都意识到——基于鸟瞰图的空间理解正在经历范式转移。作为这一变革的奠基者NVIDIA的Lift-Splat-ShootLSS算法通过创新的三维视锥构建和特征投影机制首次实现了多相机2D特征到BEV空间的端到端转换。但三年后的今天当我们重新审视这个经典框架时会发现在BEVFormer、BEVFusion等新一代算法层出不穷的背景下LSS的核心思想正在被解构与重组。1. LSS的技术遗产与时代局限LSS算法最革命性的贡献在于建立了纯视觉BEV感知的标准范式——通过Lift操作将2D图像特征提升到3D空间再通过Splat操作将3D特征投影到BEV网格。这种范式打破了传统自动驾驶感知系统对激光雷达的依赖但其设计初衷也埋下了若干根本性限制1.1 深度估计的双刃剑LSS的核心创新点在于对每个像素预测离散深度分布通常设置41个离散值这使其能够建立2D像素到3D空间的对应关系通过外积操作融合语义特征与几何信息实现多相机特征的BEV空间对齐但实际部署中暴露的缺陷同样明显# 典型LSS深度估计配置示例 dbound [4, 45, 1] # 深度范围4-45米间隔1米 depth_channels 41 # 深度通道数 voxel_size 0.5 # BEV网格分辨率(米)深度离散化带来的问题尤为突出远距离物体因深度间隔过大导致定位模糊地面坡度变化时深度分布失效动态物体因深度估计误差产生鬼影1.2 计算效率的瓶颈LSS的体素池化操作需要处理数百万级的3D点其计算复杂度随感知范围呈立方增长。我们对比不同配置下的理论计算量参数标准配置扩展配置计算量增长倍数感知范围(m)50x50100x1008x深度通道数41812xBEV网格分辨率0.5m0.25m4x这种计算特性使得LSS难以满足实时性要求严格的量产需求特别是在需要大范围感知的城市场景中。2. BEV感知的范式演进后LSS时代的技术演进呈现出三条清晰的主线它们共同推动着BEV感知向更高效、更鲁棒的方向发展。2.1 从显式几何到隐式查询BEVFormer率先引入Transformer架构用可学习的BEV Query替代了LSS的显式几何推导。这种转变带来的优势包括动态注意力机制每个BEV网格自主决定关注哪些图像区域时序融合能力通过循环BEV Query整合历史帧信息自适应深度不再依赖固定的离散深度假设# BEVFormer的注意力计算核心 bev_query BEVEmbedding(height200, width200, dim256) # 可学习的BEV查询 cross_attention MultiScaleDeformableAttention( embed_dims256, num_levels4, num_heads8, batch_firstTrue )2.2 多模态融合的新平衡BEVFusion系列工作重新思考了传感器融合的范式其技术突破体现在模态特异性编码为相机和激光雷达设计独立的特征提取网络BEV空间对齐在统一坐标系下进行特征级融合动态特征选择基于场景复杂度自适应调整融合权重我们对比不同融合策略的优劣势融合方式典型代表延迟(ms)mAP(%)硬件依赖性前融合PointPainting12068.2高后融合MV3D8062.7中BEV级融合BEVFusion6072.3低2.3 从感知到规划的端到端演进最新研究开始探索将BEV特征直接用于运动规划形成感知-预测-规划的统一表示。这种端到端范式具有以下特征语义一致性避免传统流水线中的信息损失联合优化感知任务为规划提供更丰富的上下文可解释性保持BEV空间的人类可读性实践表明端到端系统在复杂路口场景的规划成功率比模块化系统提升37%但需要解决长尾场景的泛化问题3. 关键技术突破点分析深入这些演进背后的技术细节我们可以识别出几个关键的创新方向。3.1 深度估计的进化路径针对LSS深度估计的局限新兴方法呈现出多样化解决方案深度分布预测将固定深度区间改为自适应概率分布立体视觉线索利用时序或多视角几何约束先验知识注入融合高精地图或物理规律约束实验数据显示动态深度估计方法在50米处的定位误差比固定离散化降低42%3.2 特征投影的数学本质从数学视角看LSS的Splat操作本质上是构建了一个从3D到BEV的映射函数$$ F_{bev} \sum_{i1}^N w_i \cdot f_i \cdot \delta(p_i \in V_{bev}) $$其中$w_i$是深度权重$f_i$是特征向量$\delta$是指示函数。新一代算法通过以下方式改进这个映射连续化表示用MLP学习连续位置编码可微渲染引入神经辐射场(NeRF)思想注意力机制建立动态特征关联3.3 计算加速的工程实践为应对LSS的计算瓶颈工业界探索出多种优化手段稀疏化处理仅对非空体素进行计算分级投影近场高精度远场低精度硬件感知设计适配NPU的算子重构某量产方案通过以下优化将延迟从120ms降至35ms# 稀疏卷积加速示例 sparse_conv --input bev_features \ --output sparse_bev \ --algorithm hash_based \ --precision mixed_fp164. 未来技术方向展望站在当前技术拐点BEV感知的下一步发展可能呈现以下趋势4.1 占据网络(Occupancy Networks)的崛起相比传统BEV网格占据网络提供了更丰富的3D场景表示连续空间建模能力任意形状物体表征未知障碍物检测但需要解决计算复杂度和标注成本的问题。4.2 神经场景表示的融合将神经辐射场(NeRF)与BEV感知结合可能带来自监督的深度估计新颖视角合成环境变化检测4.3 车载计算范式的重构随着芯片算力提升可能出现BEV计算专用单元硬件级优化算子传感器-计算协同设计为BEV定制的光学系统分布式BEV车路协同的联合感知在测试某量产平台时发现专用硬件加速器可使BEV计算能效比提升5-8倍这预示着算法-硬件协同设计将成为必然选择。当行业逐渐意识到没有银弹算法时针对不同场景高速/城区/泊车的差异化BEV解决方案可能成为更务实的发展路径。