1 前言当前基于学习的规划方法仍面临若干局限性比如基于VLM或者LMM生成的车辆轨迹是不够平滑的笔者在这里仅仅列出了三个方面。人类驾驶员在规划场景中往往会表现出多模态行为。现有的依赖行为克隆的方法即便采用大型基于 Transformer 的模型架构或对多条轨迹进行采样也无法保证对这种复杂的数据分布进行有效拟合。在遇到分布外OOD场景时直接使用模型输出可能会导致低质量的规划结果这迫使许多方法不得不依赖基于规则的策略进行轨迹优化或过滤但这不可避免地会面临基于规则方法固有的局限性。仅依靠模仿学习不足以捕捉自动驾驶所需的丰富多样的驾驶行为。例如现有方法通过辅助损失对不安全规划进行惩罚但由于缺乏能指导智能体从错误中恢复的学习信号往往会导致多目标冲突和较差的安全性能。此外训练良好的模型可能难以调整行为以满足特定需求。本篇博客所提到的论文由清华大学联合毫末智行、自动化所等机构发表于 ICLR 2025 的研究成果。该论文创新性地将扩散模型应用于自动驾驶规划领域后来理想汽车也将扩散模型应用于自动驾驶量产。2 扩散模型发现扩散模型在解决上述问题方面具有巨大潜力其对复杂数据分布的建模能力能够有效捕捉人类驾驶的多模态行为。此外扩散模型的高质量生成能力也为通过合理的结构设计提升输出轨迹质量提供了可能从而摆脱对基于规则优化的依赖。扩散模型最突出的优势在于其灵活的引导机制无需额外训练即可适配多种规划行为需求。受这些观察的启发论文作者提出了一种新型基于学习的方法 —— 扩散规划器Diffusion Planner首次将扩散模型应用于增强闭环规划性能且完全不依赖基于规则的优化。扩散规划器通过学习车辆轨迹得分函数的梯度来建模多模态数据分布并借助分类器引导机制实现个性化规划行为适配。2.1 预备知识1扩散模型扩散概率模型是一类生成模型其通过逆转一个被称为前向扩散过程的马尔可夫链过程来生成输出。前向过程的转移分布满足该过程通过逐渐添加高斯噪声将初始数据生成一系列带噪声的数据其中。是控制引入噪声量的方差项而通常定义为以确保当时即趋近于标准正态分布。式1的反向去噪过程可等效表示为一个扩散常微分方程Diffusion ODE。其中由固定的噪声调度参数、确定而是的边缘分布。扩散模型利用神经网络拟合概率得分。通过学习得分函数扩散模型具备对任意复杂分布进行建模的强大表达能力。2分类器引导分类器引导是一种通过分类器引导采样过程以生成预期数据的技术。分类器得分的梯度被用于修正原始扩散得分在自动驾驶领域与基于规则的优化相比这种方法具有更高的灵活性。因为它直接提升模型的固有能力而非过度依赖次优的后处理 —— 这类后处理往往需要大量人力投入和针对性的数据收集。2.2 扩散模型方法论文作者基于扩散 Transformer设计了一种新的网络架构。利用扩散损失在同一架构中联合训练预测和规划任务无需额外损失函数即可实现车辆间的协同行为。此外分类器引导的通用性进一步体现在其对已训练模型规划行为的调整能力上例如增强安全性和舒适性或控制车辆速度。可微分的分类器得分可并行计算且易于组合无需额外训练。将规划任务重新定义为未来轨迹生成任务该任务联合生成自车的规划轨迹与周边车辆的预测轨迹。1任务重新定义自动驾驶需要考虑自车与周边车辆之间的密切交互这使得规划任务与运动预测任务形成协同关系。已有研究表明对周边车辆的未来轨迹进行监督有助于提升闭环规划模型处理复杂交互场景的能力。在实际部署中运动预测还能通过提供更可控的措施增强安全性为系统落地提供便利。因此周边车辆的轨迹已成为模型训练中的关键特权信息。然而现有方法通常通过专用子模块或额外损失设计来捕捉特权信息这限制了训练过程中的建模能力且导致框架更为复杂。论文作者通过综合考虑驾驶场景中关键参与者的状态并将运动预测与闭环规划任务联合建模为未来轨迹生成任务以解决上述问题。举例给定条件 C包括当前车辆状态、历史数据、车道信息和导航信息目标是同时生成所有关键参与者的未来轨迹从而实现对它们之间协同行为的建模。然而这种复杂分布的联合建模难以通过简单的行为克隆方法解决。借助扩散模型强大的表达能力论文作者采用扩散模型完成该任务并将目标表述为其中使用带括号的上标表示扩散去噪过程的时间线而常规上标表示未来轨迹的时间线包含个时间步。对于每个状态仅考虑坐标以及航向角的正弦值和余弦值这些信息已足够供下游的线性二次调节器LQR控制器使用。选取最近的 M 辆周边车辆预测它们可能的未来轨迹。通过用参数对扩散规划器进行参数化训练目标可表述为其中目标是从带噪声的数据中恢复数据分布。可得到得分函数并将其应用于去噪过程中。多车辆的联合预测与运动预测和交通仿真任务类似但更关注自车的闭环规划性能和实时部署能力。2扩散规划器扩散规划器Diffusion Planner基于扩散 TransformerDiT架构构建其核心设计聚焦于带噪声的未来车辆轨迹与条件信息之间的融合机制下图展示了完整架构的概览。1车辆信息整合第一步中将未来车辆轨迹 x 与每辆车的当前状态拼接表示为。这种拼接作为约束条件引导模型通过提供明确的起点简化规划任务。值得注意的是自车的速度和加速度信息被排除在外正如先前研究所强调的这一设计有助于提升闭环性能。模型执行过程中不同车辆的信息通过多头自注意力机制实现整合。2历史状态与车道信息融合周边车辆的历史状态和车道信息通过向量形式表示每辆周边车辆表示为车道表示为其中指过去的时间步数表示每条折线的点数。包含车辆坐标、航向角、速度、尺寸和类别等数据而提供车道坐标、交通灯状态和限速等细节信息。由于这些向量信息稀疏直接融合会增加训练难度。为解决这一问题论文作者采用 MLP-Mixer 网络提取信息密集型表征。与现有研究中复杂的结构设计相比通过让向量迭代经过 MLP 混合层同时作用于向量维度和特征维度提供了一种更统一、更简化的解决方案。每个混合层的前向过程可表述如下论文作者为周边车辆和车道分别使用两个独立的 MLP-Mixer 网络。此处S 表示每辆周边车辆或每条车道的特征。经过多个混合层后在最终输出的向量维度上进行池化操作。还考虑了静态物体信息其中包含坐标、航向角、尺寸和类别等数据。对于静态物体信息使用 MLP 提取特征表征。最后将所有表征拼接起来并输入到一个标准 Transformer 编码器中进行进一步聚合得到编码器表征。与的融合过程如下其中MHCA 表示多头交叉注意力Multi-Head Cross-Attention。3导航信息融合导航信息对于自动驾驶规划至关重要它提供了关于预期路线的关键指引使车辆能够做出合理决策。在 nuPlan 基准测试集中导航信息被表示为沿路线的一组车道即其中 K 表示路线车道的数量仅包含坐标信息。首先采用如式6所述的 MLP-Mixer 网络提取关键的导航指引表征。随后将与扩散时间步条件相加并通过自适应层归一化模块作用于所有标记以引导轨迹生成。3基于分类器引导的规划行为对齐在实际自动驾驶场景中实现多样化且可控的驾驶行为轨迹至关重要。例如车辆需在确保安全性和舒适性的同时根据用户偏好调整车速。得益于扩散模型与能量基模型Energy-Based Models的密切关联可通过分类器引导便捷地注入此类偏好。它能在推理阶段通过梯度调整引导模型输出为个性化适配提供巨大潜力。给定原始驾驶行为分布旨在注入额外引导以强化某些偏好行为使其叠加于现有行为分布之上。这一操作可表述为生成目标行为分布其中可为某种编码安全性或偏好行为的能量函数。这一过程通常需要额外训练一个分类器以提供准确的近似。然而扩散后验采样方法提供了一种无需额外训练的方式仅使用式5中已训练的扩散模型来近似引导能量从而绕过分类器训练分类器训练会带来额外计算开销该方法的一个限制是式8需要使用预定义的可微分能量函数 E(⋅) 来计算引导能量。幸运的是在自动驾驶场景中许多轨迹评估协议都可通过可微分函数定义。接下来简要介绍一些可用于定制模型规划行为的能量函数更多细节见论文附录 C.3章节。目标车速维持以速度差值作为能量通过比较规划的平均车速与设定的目标车速计算得出。舒适性能量函数通过衡量车辆状态超出预设限制的程度计算得出。避撞性在每个时间戳计算自车与周边车辆之间的带符号距离。车道保持计算每个时间步自车偏离车道外部的距离。此外这种无需额外训练的方法支持在推理阶段灵活组合能量函数为复杂场景下的可控轨迹生成提供了解决方案。例如如下图所示仅使用避撞引导时自车会偏离道路以避让后方驶来的车辆而当加入车道保持引导后车辆可在保持安全的同时始终行驶在道路上。4闭环规划的实际实现数据增强有助于缓解分布外OOD问题在规划任务中被广泛应用。训练前对当前状态添加随机扰动。随后通过插值生成物理可行的过渡过程使模型能够抵抗扰动并回归至真实轨迹。之后通过坐标变换将数据从全局坐标系转换为以自车为中心的坐标系。考虑到车辆纵向和横向行驶距离存在显著差异采用 z-score 标准化确保数据分布的均值接近零从而进一步稳定训练过程。推理阶段使用 DPM-Solver实现更快的采样同时通过低温采样增强规划过程的确定性。能够以 10 Hz 的频率完成未来 8 秒的轨迹规划含周边车辆预测推理频率约为 20 Hz。具体实现细节详见论文附录 C。2.3 实验及结果在大规模真实世界自动驾驶规划基准测试集 nuPlan上的评估结果表明扩散规划器在基于学习的基线模型中实现了最先进的闭环性能与基于规则的方法相当甚至更优且直接使用模型输出即可无需任何额外后处理这一点非常友好。若为模型附加现有后处理模块进一步在所有基线模型中实现了SOTA。此外论文作者收集了 200 小时不同城市驾驶场景下的长期配送车辆驾驶数据进一步验证了模型在多种驾驶风格中的迁移能力和稳健性。这里笔者随便用文章中的结果展示给朋友们看看。1正常轨迹未来轨迹生成可视化闭环测试中一个具有挑战性的窄路转弯场景帧包含自车的未来规划轨迹PlanTF 和 PLUTO 无优化版本展示了多条候选轨迹、周边车辆的预测轨迹以及自车的真实轨迹。2多模态规划行为选取了一个交叉路口场景在相同初始位置下不使用低温采样进行多次推理以获取不同的可能输出从而评估模型对多模态驾驶行为的拟合能力。如图 5 所示在没有导航信息的情况下车辆可呈现三种明显不同的驾驶行为 —— 左转、右转和直行且区分度清晰。当提供导航信息时模型能准确遵循导航指令执行左转。这一结果表明扩散模型具备拟合不同分布驾驶行为的能力且能够在这些行为之间灵活切换。4 总结当代基于学习的规划方法如模仿学习方法往往难以平衡相互冲突的目标且缺乏安全保障。这是由于它们的适应性有限无法充分学习人类规划中常见的复杂多模态行为更不用说它们严重依赖预设规则的 fallback 策略。一种基于 Transformer 的新型扩散规划器Diffusion Planner用于闭环规划。该规划器能够有效建模多模态驾驶行为并在无需任何基于规则的优化的情况下保证轨迹质量。模型支持在同一架构下对预测和规划任务进行联合建模从而实现车辆间的协同行为。此外通过学习轨迹得分函数的梯度并采用灵活的分类器引导机制扩散规划器可有效实现安全且适应性强的规划行为。参考文献《DIFFUSION-BASED PLANNING FOR AUTONOMOUS DRIVING WITH FLEXIBLE GUIDANCE》
自动驾驶大模型---Diffusion Planner
1 前言当前基于学习的规划方法仍面临若干局限性比如基于VLM或者LMM生成的车辆轨迹是不够平滑的笔者在这里仅仅列出了三个方面。人类驾驶员在规划场景中往往会表现出多模态行为。现有的依赖行为克隆的方法即便采用大型基于 Transformer 的模型架构或对多条轨迹进行采样也无法保证对这种复杂的数据分布进行有效拟合。在遇到分布外OOD场景时直接使用模型输出可能会导致低质量的规划结果这迫使许多方法不得不依赖基于规则的策略进行轨迹优化或过滤但这不可避免地会面临基于规则方法固有的局限性。仅依靠模仿学习不足以捕捉自动驾驶所需的丰富多样的驾驶行为。例如现有方法通过辅助损失对不安全规划进行惩罚但由于缺乏能指导智能体从错误中恢复的学习信号往往会导致多目标冲突和较差的安全性能。此外训练良好的模型可能难以调整行为以满足特定需求。本篇博客所提到的论文由清华大学联合毫末智行、自动化所等机构发表于 ICLR 2025 的研究成果。该论文创新性地将扩散模型应用于自动驾驶规划领域后来理想汽车也将扩散模型应用于自动驾驶量产。2 扩散模型发现扩散模型在解决上述问题方面具有巨大潜力其对复杂数据分布的建模能力能够有效捕捉人类驾驶的多模态行为。此外扩散模型的高质量生成能力也为通过合理的结构设计提升输出轨迹质量提供了可能从而摆脱对基于规则优化的依赖。扩散模型最突出的优势在于其灵活的引导机制无需额外训练即可适配多种规划行为需求。受这些观察的启发论文作者提出了一种新型基于学习的方法 —— 扩散规划器Diffusion Planner首次将扩散模型应用于增强闭环规划性能且完全不依赖基于规则的优化。扩散规划器通过学习车辆轨迹得分函数的梯度来建模多模态数据分布并借助分类器引导机制实现个性化规划行为适配。2.1 预备知识1扩散模型扩散概率模型是一类生成模型其通过逆转一个被称为前向扩散过程的马尔可夫链过程来生成输出。前向过程的转移分布满足该过程通过逐渐添加高斯噪声将初始数据生成一系列带噪声的数据其中。是控制引入噪声量的方差项而通常定义为以确保当时即趋近于标准正态分布。式1的反向去噪过程可等效表示为一个扩散常微分方程Diffusion ODE。其中由固定的噪声调度参数、确定而是的边缘分布。扩散模型利用神经网络拟合概率得分。通过学习得分函数扩散模型具备对任意复杂分布进行建模的强大表达能力。2分类器引导分类器引导是一种通过分类器引导采样过程以生成预期数据的技术。分类器得分的梯度被用于修正原始扩散得分在自动驾驶领域与基于规则的优化相比这种方法具有更高的灵活性。因为它直接提升模型的固有能力而非过度依赖次优的后处理 —— 这类后处理往往需要大量人力投入和针对性的数据收集。2.2 扩散模型方法论文作者基于扩散 Transformer设计了一种新的网络架构。利用扩散损失在同一架构中联合训练预测和规划任务无需额外损失函数即可实现车辆间的协同行为。此外分类器引导的通用性进一步体现在其对已训练模型规划行为的调整能力上例如增强安全性和舒适性或控制车辆速度。可微分的分类器得分可并行计算且易于组合无需额外训练。将规划任务重新定义为未来轨迹生成任务该任务联合生成自车的规划轨迹与周边车辆的预测轨迹。1任务重新定义自动驾驶需要考虑自车与周边车辆之间的密切交互这使得规划任务与运动预测任务形成协同关系。已有研究表明对周边车辆的未来轨迹进行监督有助于提升闭环规划模型处理复杂交互场景的能力。在实际部署中运动预测还能通过提供更可控的措施增强安全性为系统落地提供便利。因此周边车辆的轨迹已成为模型训练中的关键特权信息。然而现有方法通常通过专用子模块或额外损失设计来捕捉特权信息这限制了训练过程中的建模能力且导致框架更为复杂。论文作者通过综合考虑驾驶场景中关键参与者的状态并将运动预测与闭环规划任务联合建模为未来轨迹生成任务以解决上述问题。举例给定条件 C包括当前车辆状态、历史数据、车道信息和导航信息目标是同时生成所有关键参与者的未来轨迹从而实现对它们之间协同行为的建模。然而这种复杂分布的联合建模难以通过简单的行为克隆方法解决。借助扩散模型强大的表达能力论文作者采用扩散模型完成该任务并将目标表述为其中使用带括号的上标表示扩散去噪过程的时间线而常规上标表示未来轨迹的时间线包含个时间步。对于每个状态仅考虑坐标以及航向角的正弦值和余弦值这些信息已足够供下游的线性二次调节器LQR控制器使用。选取最近的 M 辆周边车辆预测它们可能的未来轨迹。通过用参数对扩散规划器进行参数化训练目标可表述为其中目标是从带噪声的数据中恢复数据分布。可得到得分函数并将其应用于去噪过程中。多车辆的联合预测与运动预测和交通仿真任务类似但更关注自车的闭环规划性能和实时部署能力。2扩散规划器扩散规划器Diffusion Planner基于扩散 TransformerDiT架构构建其核心设计聚焦于带噪声的未来车辆轨迹与条件信息之间的融合机制下图展示了完整架构的概览。1车辆信息整合第一步中将未来车辆轨迹 x 与每辆车的当前状态拼接表示为。这种拼接作为约束条件引导模型通过提供明确的起点简化规划任务。值得注意的是自车的速度和加速度信息被排除在外正如先前研究所强调的这一设计有助于提升闭环性能。模型执行过程中不同车辆的信息通过多头自注意力机制实现整合。2历史状态与车道信息融合周边车辆的历史状态和车道信息通过向量形式表示每辆周边车辆表示为车道表示为其中指过去的时间步数表示每条折线的点数。包含车辆坐标、航向角、速度、尺寸和类别等数据而提供车道坐标、交通灯状态和限速等细节信息。由于这些向量信息稀疏直接融合会增加训练难度。为解决这一问题论文作者采用 MLP-Mixer 网络提取信息密集型表征。与现有研究中复杂的结构设计相比通过让向量迭代经过 MLP 混合层同时作用于向量维度和特征维度提供了一种更统一、更简化的解决方案。每个混合层的前向过程可表述如下论文作者为周边车辆和车道分别使用两个独立的 MLP-Mixer 网络。此处S 表示每辆周边车辆或每条车道的特征。经过多个混合层后在最终输出的向量维度上进行池化操作。还考虑了静态物体信息其中包含坐标、航向角、尺寸和类别等数据。对于静态物体信息使用 MLP 提取特征表征。最后将所有表征拼接起来并输入到一个标准 Transformer 编码器中进行进一步聚合得到编码器表征。与的融合过程如下其中MHCA 表示多头交叉注意力Multi-Head Cross-Attention。3导航信息融合导航信息对于自动驾驶规划至关重要它提供了关于预期路线的关键指引使车辆能够做出合理决策。在 nuPlan 基准测试集中导航信息被表示为沿路线的一组车道即其中 K 表示路线车道的数量仅包含坐标信息。首先采用如式6所述的 MLP-Mixer 网络提取关键的导航指引表征。随后将与扩散时间步条件相加并通过自适应层归一化模块作用于所有标记以引导轨迹生成。3基于分类器引导的规划行为对齐在实际自动驾驶场景中实现多样化且可控的驾驶行为轨迹至关重要。例如车辆需在确保安全性和舒适性的同时根据用户偏好调整车速。得益于扩散模型与能量基模型Energy-Based Models的密切关联可通过分类器引导便捷地注入此类偏好。它能在推理阶段通过梯度调整引导模型输出为个性化适配提供巨大潜力。给定原始驾驶行为分布旨在注入额外引导以强化某些偏好行为使其叠加于现有行为分布之上。这一操作可表述为生成目标行为分布其中可为某种编码安全性或偏好行为的能量函数。这一过程通常需要额外训练一个分类器以提供准确的近似。然而扩散后验采样方法提供了一种无需额外训练的方式仅使用式5中已训练的扩散模型来近似引导能量从而绕过分类器训练分类器训练会带来额外计算开销该方法的一个限制是式8需要使用预定义的可微分能量函数 E(⋅) 来计算引导能量。幸运的是在自动驾驶场景中许多轨迹评估协议都可通过可微分函数定义。接下来简要介绍一些可用于定制模型规划行为的能量函数更多细节见论文附录 C.3章节。目标车速维持以速度差值作为能量通过比较规划的平均车速与设定的目标车速计算得出。舒适性能量函数通过衡量车辆状态超出预设限制的程度计算得出。避撞性在每个时间戳计算自车与周边车辆之间的带符号距离。车道保持计算每个时间步自车偏离车道外部的距离。此外这种无需额外训练的方法支持在推理阶段灵活组合能量函数为复杂场景下的可控轨迹生成提供了解决方案。例如如下图所示仅使用避撞引导时自车会偏离道路以避让后方驶来的车辆而当加入车道保持引导后车辆可在保持安全的同时始终行驶在道路上。4闭环规划的实际实现数据增强有助于缓解分布外OOD问题在规划任务中被广泛应用。训练前对当前状态添加随机扰动。随后通过插值生成物理可行的过渡过程使模型能够抵抗扰动并回归至真实轨迹。之后通过坐标变换将数据从全局坐标系转换为以自车为中心的坐标系。考虑到车辆纵向和横向行驶距离存在显著差异采用 z-score 标准化确保数据分布的均值接近零从而进一步稳定训练过程。推理阶段使用 DPM-Solver实现更快的采样同时通过低温采样增强规划过程的确定性。能够以 10 Hz 的频率完成未来 8 秒的轨迹规划含周边车辆预测推理频率约为 20 Hz。具体实现细节详见论文附录 C。2.3 实验及结果在大规模真实世界自动驾驶规划基准测试集 nuPlan上的评估结果表明扩散规划器在基于学习的基线模型中实现了最先进的闭环性能与基于规则的方法相当甚至更优且直接使用模型输出即可无需任何额外后处理这一点非常友好。若为模型附加现有后处理模块进一步在所有基线模型中实现了SOTA。此外论文作者收集了 200 小时不同城市驾驶场景下的长期配送车辆驾驶数据进一步验证了模型在多种驾驶风格中的迁移能力和稳健性。这里笔者随便用文章中的结果展示给朋友们看看。1正常轨迹未来轨迹生成可视化闭环测试中一个具有挑战性的窄路转弯场景帧包含自车的未来规划轨迹PlanTF 和 PLUTO 无优化版本展示了多条候选轨迹、周边车辆的预测轨迹以及自车的真实轨迹。2多模态规划行为选取了一个交叉路口场景在相同初始位置下不使用低温采样进行多次推理以获取不同的可能输出从而评估模型对多模态驾驶行为的拟合能力。如图 5 所示在没有导航信息的情况下车辆可呈现三种明显不同的驾驶行为 —— 左转、右转和直行且区分度清晰。当提供导航信息时模型能准确遵循导航指令执行左转。这一结果表明扩散模型具备拟合不同分布驾驶行为的能力且能够在这些行为之间灵活切换。4 总结当代基于学习的规划方法如模仿学习方法往往难以平衡相互冲突的目标且缺乏安全保障。这是由于它们的适应性有限无法充分学习人类规划中常见的复杂多模态行为更不用说它们严重依赖预设规则的 fallback 策略。一种基于 Transformer 的新型扩散规划器Diffusion Planner用于闭环规划。该规划器能够有效建模多模态驾驶行为并在无需任何基于规则的优化的情况下保证轨迹质量。模型支持在同一架构下对预测和规划任务进行联合建模从而实现车辆间的协同行为。此外通过学习轨迹得分函数的梯度并采用灵活的分类器引导机制扩散规划器可有效实现安全且适应性强的规划行为。参考文献《DIFFUSION-BASED PLANNING FOR AUTONOMOUS DRIVING WITH FLEXIBLE GUIDANCE》