从感知到规划:大语言模型如何重塑自动驾驶技术栈

从感知到规划:大语言模型如何重塑自动驾驶技术栈 1. 自动驾驶技术栈的演进从模块化到统一框架十年前我刚入行时自动驾驶系统就像一台精密的瑞士钟表每个齿轮模块都必须严丝合缝。感知模块用卷积神经网络识别车辆和行人预测模块用LSTM推算运动轨迹规划模块再用优化算法生成方向盘转角。这种模块化架构确实可靠但每次调试都让我想起小时候玩的传话游戏——信息在模块间传递时总会产生微妙的失真。直到2023年大语言模型LLM的爆发带来了转机。记得第一次看到BEVGPT论文时我正坐在旧金山的咖啡馆里差点把咖啡洒在键盘上。这个模型竟然能用纯鸟瞰图输入像写小说一样自回归生成未来6秒的驾驶场景传统模块间的信息壁垒被彻底打破就像把钟表零件熔铸成了一块智能手表。关键技术突破体现在三个维度跨模态统一表征DriveMLM等框架将摄像头、LiDAR数据编码成LLM能理解的视觉单词时序因果建模MotionLM把连续轨迹离散化成运动词汇表用语言模型预测多车交互可解释性增强GPT-Driver会输出类似减速是因为右前方自行车可能切入的决策日志上周我测试DriveVLM时遇到个典型场景施工路段有工人挥舞荧光棒。传统系统会纠结于这是行人还是交通锥的感知分类而LLM直接理解成人类指挥交通需礼让。这种常识推理能力正是模块化架构最欠缺的。2. 感知革命当LLM学会看懂道路传统视觉感知就像教小学生做选择题框出物体→选择类别→打上标签。我在特斯拉工作时标注团队每天要处理数百万张图片但遇到印度牛车或者中东长袍行人系统还是会懵。LLM的突破在于把感知重构为视觉问答任务——不是这是什么而是这对驾驶意味着什么。HiLM-D的解决方案让我印象深刻。它像人类司机一样采用双重处理低分辨率分支快速扫描全局类似余光观察高分辨率分支聚焦风险区域就像紧盯可疑的行人实测发现这种架构在DRAMA数据集上小物体漏检率下降23%紧急制动误触发减少17%处理延时仅增加8ms更妙的是DriveLM的图推理能力。遇到十字路口左转时模型会构建这样的逻辑链对向直行车流密度视觉问答黄灯剩余时间OCR理解后方跟车距离几何计算→ 生成加速通过或停车等待的决策这种端到端的感知-决策流水线省去了传统方案中繁琐的中间表示转换。不过部署时要注意LLM对图像压缩很敏感我们团队发现JPEG质量低于80%时行人识别准确率会骤降15%。3. 预测与规划用语言模型推演未来规划模块曾是最让我头疼的部分。传统基于规则的算法处理不了这样的场景幼儿园校车突然打双闪靠边——是接送孩子还是要故障停车去年用MotionLM做测试时模型给出的推理让我拍案叫绝校车属于特殊车辆常识当前非接送时段时间推理双闪频率异常模式识别→ 建议变道超越并保持3米间距关键技术演进表现在时空离散化把连续轨迹转化为运动词汇比如加速_0.3g_2s多模态对齐LanguageMPC将LLM的谨慎超车转化为MPC控制器的具体参数记忆机制VLM-MPC会记住该路段常有动物出没的文本提示在nuScenes数据集上的对比测试很能说明问题指标传统方法LLM方案提升幅度3秒轨迹误差1.65m1.52m8.2%复杂场景通过率72%89%23.6%急动度0.38g0.29g23.7%不过要注意模型对数值的敏感性我们发现将控制频率从10Hz提升到15Hz时GPT-Driver的轨迹抖动会明显增加这与其tokenizer对小数位的处理方式有关。4. 落地挑战与实用解决方案在苏州实地测试DriveVLM-Dual时暴雨中的一次误判让我意识到LLM的软肋把大型广告牌上的啤酒瓶图案误判为真实障碍物。这促使我们开发了三层校验机制物理合理性过滤飘浮的酒瓶违反重力多帧一致性检查广告牌内容应静止传感器交叉验证LiDAR点云缺失部署经验表明需要特别关注实时性优化Senna框架通过分离快速路径和慢速路径将LLM推理耗时控制在120ms内记忆管理HE-Drive的扩散模型会缓存典型场景类似人类司机的肌肉记忆安全冗余RAPID框架同时运行LLM和传统规划器以2/3投票机制决策有个有趣的发现当系统同时接入高精地图和LLM时会出现认知冲突。比如地图显示该路段限速60km/h但LLM根据现场学校标志建议40km/h。我们最终设计了个置信度加权算法让系统能动态调整权重。最近在调试DriveMM时遇到个值得分享的案例模型在施工绕行路段选择了一条泥泞小路。分析决策日志发现LLM将最短路径优先级设得过高。通过注入舒适度参数并调整提示词模板最终使系统能平衡路径长度与路面质量。这种调试过程就像教新手上路——既要给明确规则也要培养判断力。