这是目前机器人控制、具身智能、VLA 落地里最强的动作生成算法之一。目录一、一句话说清Diffusion Policy 是什么二、它解决了机器人控制的什么致命问题三、超直观理解扩散模型怎么生成动作1训练阶段给动作 “加噪声”2推理阶段从噪声 “生成动作”四、Diffusion Policy 核心结构机器人专用版输入输出模型结构五、为什么 Diffusion Policy 在机器人上这么强重点1天生输出平滑轨迹2能学习多模态动作分布3鲁棒性极强4长时序动作生成超强六、和 ACT 对比你最关心七、最简单的逻辑总结记这个就够八、如果你要落地我可以继续给你一、一句话说清Diffusion Policy 是什么Diffusion Policy 用扩散模型Diffusion Model来生成机器人连续动作序列。它不是生成图片而是生成机器人关节角度 / 末端位姿 / gripper 开合 的平滑轨迹。二、它解决了机器人控制的什么致命问题传统机器人策略BC、RL、ACT都有通病动作容易抖动、不平滑多模态、多解法的任务学不会比如一条任务有多种正确姿势一扰动就崩鲁棒差长时序轨迹很难生成Diffusion Policy 直接把这些问题全部干掉。三、超直观理解扩散模型怎么生成动作扩散模型分两步加噪训练 → 去噪推理1训练阶段给动作 “加噪声”给一段完美的机器人动作轨迹一步步加高斯噪声直到变成纯随机噪声让神经网络学习如何把噪声变回干净动作→ 模型学会任何噪声 → 还原成正常动作2推理阶段从噪声 “生成动作”输入当前观测图像 关节状态输入一段纯随机噪声当作初始动作模型一步步去噪最后输出一段高质量、超平滑的机器人动作序列四、Diffusion Policy 核心结构机器人专用版输入视觉图像单目 / 多目机器人当前状态关节角语言指令可选输出未来 N 步动作序列Action Sequence例如未来 16/32/64 步关节角度。模型结构视觉编码器ResNet / ViT时序编码器处理历史观测扩散 UNet 或 Transformer去噪网络五、为什么 Diffusion Policy 在机器人上这么强重点1天生输出平滑轨迹扩散模型生成连续分布动作不会跳变。机器人控制最需要的就是平滑、低抖动。2能学习多模态动作分布一个任务可以有多种正确做法抓杯子可以左边抓、右边抓放物体可以有多种姿势传统模型只会学 “平均动作” → 很烂。扩散模型学完整分布→ 能生成各种正确动作。3鲁棒性极强就算观测有噪声、遮挡、晃动依然能输出稳定动作。真实机器人环境必备。4长时序动作生成超强一次生成 1664 步动作不会像单步策略那样误差累积、漂移、崩溃。六、和 ACT 对比你最关心方法核心思想平滑度多模态鲁棒性难度ACTTransformer CVAE 动作块高中中中Diffusion Policy扩散模型去噪生成动作极高极强极强中高结论要高精度、柔顺、复杂操作→Diffusion Policy 更强要速度快、轻量→ ACT 更快现在最顶尖具身智能如 Google RT-X、DeepMind都在往Diffusion Policy靠七、最简单的逻辑总结记这个就够传统策略预测单点动作ACT预测一整段动作块Diffusion Policy用扩散模型生成一整段高质量动作轨迹它是目前机器人连续控制最强范式之一。也是你做VLA 实体机器人 精细操作的终极方案。八、如果你要落地我可以继续给你最精简的Diffusion Policy 代码PyTorch可直接跑的扩散策略训练脚本适配机械臂 / 轮式机器人的版本结合FSDP / DeepSpeed分布式训练方案
一文详解Diffusion Policy
这是目前机器人控制、具身智能、VLA 落地里最强的动作生成算法之一。目录一、一句话说清Diffusion Policy 是什么二、它解决了机器人控制的什么致命问题三、超直观理解扩散模型怎么生成动作1训练阶段给动作 “加噪声”2推理阶段从噪声 “生成动作”四、Diffusion Policy 核心结构机器人专用版输入输出模型结构五、为什么 Diffusion Policy 在机器人上这么强重点1天生输出平滑轨迹2能学习多模态动作分布3鲁棒性极强4长时序动作生成超强六、和 ACT 对比你最关心七、最简单的逻辑总结记这个就够八、如果你要落地我可以继续给你一、一句话说清Diffusion Policy 是什么Diffusion Policy 用扩散模型Diffusion Model来生成机器人连续动作序列。它不是生成图片而是生成机器人关节角度 / 末端位姿 / gripper 开合 的平滑轨迹。二、它解决了机器人控制的什么致命问题传统机器人策略BC、RL、ACT都有通病动作容易抖动、不平滑多模态、多解法的任务学不会比如一条任务有多种正确姿势一扰动就崩鲁棒差长时序轨迹很难生成Diffusion Policy 直接把这些问题全部干掉。三、超直观理解扩散模型怎么生成动作扩散模型分两步加噪训练 → 去噪推理1训练阶段给动作 “加噪声”给一段完美的机器人动作轨迹一步步加高斯噪声直到变成纯随机噪声让神经网络学习如何把噪声变回干净动作→ 模型学会任何噪声 → 还原成正常动作2推理阶段从噪声 “生成动作”输入当前观测图像 关节状态输入一段纯随机噪声当作初始动作模型一步步去噪最后输出一段高质量、超平滑的机器人动作序列四、Diffusion Policy 核心结构机器人专用版输入视觉图像单目 / 多目机器人当前状态关节角语言指令可选输出未来 N 步动作序列Action Sequence例如未来 16/32/64 步关节角度。模型结构视觉编码器ResNet / ViT时序编码器处理历史观测扩散 UNet 或 Transformer去噪网络五、为什么 Diffusion Policy 在机器人上这么强重点1天生输出平滑轨迹扩散模型生成连续分布动作不会跳变。机器人控制最需要的就是平滑、低抖动。2能学习多模态动作分布一个任务可以有多种正确做法抓杯子可以左边抓、右边抓放物体可以有多种姿势传统模型只会学 “平均动作” → 很烂。扩散模型学完整分布→ 能生成各种正确动作。3鲁棒性极强就算观测有噪声、遮挡、晃动依然能输出稳定动作。真实机器人环境必备。4长时序动作生成超强一次生成 1664 步动作不会像单步策略那样误差累积、漂移、崩溃。六、和 ACT 对比你最关心方法核心思想平滑度多模态鲁棒性难度ACTTransformer CVAE 动作块高中中中Diffusion Policy扩散模型去噪生成动作极高极强极强中高结论要高精度、柔顺、复杂操作→Diffusion Policy 更强要速度快、轻量→ ACT 更快现在最顶尖具身智能如 Google RT-X、DeepMind都在往Diffusion Policy靠七、最简单的逻辑总结记这个就够传统策略预测单点动作ACT预测一整段动作块Diffusion Policy用扩散模型生成一整段高质量动作轨迹它是目前机器人连续控制最强范式之一。也是你做VLA 实体机器人 精细操作的终极方案。八、如果你要落地我可以继续给你最精简的Diffusion Policy 代码PyTorch可直接跑的扩散策略训练脚本适配机械臂 / 轮式机器人的版本结合FSDP / DeepSpeed分布式训练方案