地平线最新的世界模型HorizonDrive，藏了很多工程细节......-尧图企业网站定制

点击下方卡片关注“自动驾驶之心”公众号作者 | Conglang Zhang等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球上周我们的文章余凯说各家智驾技术路线没有本质区别余凯老师有提到现在的技术方案各家实际都在做。他的大意是行业里什么 VLA、VLM、End-to-End、世界模型很多时候都成了 buzz word。真正牌桌上的玩家技术路线没有本质区别大家都在做类似的事情。最终能拉开差距的不是什么「九阴真经」而是工程细节。这不地平线自己的世界模型方案推出了HorizonDrive。世界模型大家好像都听腻了所以一开始我们也在犹豫要不要写包括小米上周的世界模型方案。看完之后地平线没有让我失望。依旧是工程和实车上的验证很多所以我觉得还是有必要写一下把里面一些我觉得做的不错的东西跟大家分享出来。一些工程上的细节在结尾。如果看到这篇文章的你也在搭建公司的世界模型方案不妨看看。论文标题HorizonDrive: Self-Corrective Autoregressive World Model for Long-horizon Driving Simulation论文链接https://arxiv.org/abs/2605.11596项目主页https://zcliangyue.github.io/HorizonDrive从技术形态看它属于自回归驾驶世界模型。基础仍然是视频生成框架基于 video-VAE 通过 HD Map、3D Bbox 和自车动作等条件生成未来驾驶场景。我们找地平线的同学聊了下他们说这篇工作是想回答下面这个问题❝自驾本质上有长时序的需求所以当世界模型不断把生成的结果作为下一轮输入时模型还能不能持续稳定地往前生成一般的视频生成方法更多追求单段视频质量画面清晰、时序连贯、风格统一基本就能说明模型能力。但自动驾驶还要承接下游的planner、自车动作和历史信息。一次小的车道线漂移、车辆几何抖动、路口结构错位都会在后续自回归过程中继续放大。最终的问题很可能的模型崩掉。画面变糊、道路结构发飘、交通参与者的关系也出现错乱到这个地步生成也就没了意义。所以生成质量只是世界模型要解决的第一步长时序自回归稳定性是HorizonDrive再尝试进一步解决的方向。HorizonDrive 的思考是这样的要让世界模型走向闭环仿真模型必须具备处理自身错误历史的能力。也就是说它不能只在干净的GT上生成下一段未来还要学会在自己生成出来的、有偏差的历史上继续恢复正常的场景。这正是这篇工作的主线。生成是世界模型的第一步之前的自动驾驶世界模型大致可以分为下面的几条路线。第一类是双向视频生成模型。这类模型能利用完整的时序信息生成质量通常不错但它更适合离线模拟无法真正和 planner 做持续交互。第二类是显式引入3D重建先验的方法。这条路线很自然既然视频模型难以长期保持几何一致性那就把问题提升到 3D 空间里用外部结构约束生成。它的好处是直接几何一致性也更容易提升但问题在于一旦外部先验出错生成结果也会被带偏而且额外系统会增加扩展复杂度。第三类是常规长视频训练方法例如 Self-Forcing、LongLive 等。它们通过 rollout 蒸馏、sink token、KV cache 等机制尽量缓解长程生成里的误差累积。这些技巧在一般长视频里很有效因为人物身份、背景风格等信息需要被长期保留。但自动驾驶场景不同自车在高速运动周围环境快速变化过去窗口里的信息不一定仍然可靠。更关键的是如果 teacher 本身不能处理带误差的历史那么 student 在长程蒸馏里学到的监督信号也会被污染。HorizonDrive 的判断是自动驾驶长程闭环可交互的核心不只是记住过去而是要学会从错误中修复。所以它没有押宝在额外的 3D prior 或复杂 memory 机制上而是走了一条更难但是可能正确的道路直接提升生成模型自身处理错误历史、修复轨迹偏移和恢复场景结构的能力。上面这个 demo 可以直观看到 HorizonDrive 的效果。模型在持续接收控制信号和上下文信息的情况下仍然能在接近一分钟的生成中保持画面质量和场景结构稳定。这个结果表明直接提升模型自身的误差修复能力是一条可行的长时序生成路线。相比继续堆外部先验或复杂 memory它把问题压回到了模型本身当前窗口出错之后模型还能不能把场景拉回合理轨道。更难得的是这套方法和其它视频生成框架完全兼容具有很好的扩展性。如何把误差修复做得更好Self-Forcing 是误差修复的典型做法在训练时也让 student 按照推理的方式去 rollout从而适应自己产生的误差。但在实践中HorizonDrive 发现这个做法的上限不高。一方面受显存限制teacher 能直接监督的时间窗口是有限的这使得学生没法在更长的序列上学习。另一方面如果像现有方法一样分chunk监督那么教师模型必然会以带有误差的帧作为条件帧。结果就是在长时序蒸馏的需求下教师模型没法保持监督信号的可靠性。因此 HorizonDrive 没有一上来就把纠错压力全部丢给 student而是先单独提升 teacher 的 rollout 能力。只有 teacher 能在自己的预测历史上继续生成并且从误差中恢复后面的蒸馏才有意义。顺着这个逻辑HorizonDrive 把训练拆成了三个阶段第一阶段训练一个基础可控世界模型让它能根据 HD Map、3D Bbox 和 Action 生成短时序驾驶视频。第二阶段用 Scheduled Rollout RecoverySRR让 teacher 真正看见自己 rollout 后产生的错误并学习从这些错误中恢复。第三阶段再用 Teacher Rollout DMDTRD把 teacher 的长程纠错能力蒸馏给更高效的 student。HorizonDrive 的三阶段训练范式而在具体的实现过程中他们还通过很多细节设计解决了一些问题。下面我们具体来介绍一下这三个阶段分别是怎么做的。第一阶段先得到一个可控世界模型HorizonDrive 的起点是一个可控驾驶世界模型。它在 video-VAE 的 latent 空间里工作输入是一段历史上下文和未来控制条件输出是下一段 latent 视频块。这里的控制条件对应自动驾驶场景里的关键信息自车动作、HD Map 和 3D Bbox。自车动作可以写成通过 AdaLN 注入模型地图和目标框则被编码成 layout token用来约束道路结构和交通参与者布局。训练方式本身并不复杂。每条 clip 被切成前后两段前帧作为条件窗口后帧作为生成目标。条件 latent 保持干净生成块加噪然后用 Flow Matching 监督速度场。核心目标是其中是模型预测的速度场表示真实 latent 与高斯噪声之间的插值。完成这个阶段后得到基础模型。它已经能生成受控短视频但直接拿来做长程闭环仍然不够。原因很直接训练时它看到的是干净 GT 历史推理时却要面对自己生成出来的历史。这两者不是同一个分布。SRR让 teacher 在自己的错误上训练让 teacher 模型具备一定 rollout 能力之前也不是没有人做过。但 HorizonDrive 做得更彻底。现有的方法通过在条件帧上面加上模拟误差但都收效甚微只能支持模型 rollout 四五轮。原因很简单模拟的误差不可能覆盖真实 rollout 中的错误形态它可能是车道线轻微漂移也可能是车辆几何不稳定还可能是控制条件和视觉结果之间逐渐失配。误差的多样性没有办法被绕开。因此HorizonDrive 选择让模型自己去 rollout真实地复现了推理时的误差。实践中还可以通过缩减冗余的去噪步数来提升误差收集的效率并每隔一段时间更新误差集让模型在收集误差-学习误差-收集误差的循环中不断进化。具体来说会先进行多步自回归 rollout。每一步只保留固定长度为的历史 buffer并根据接下来帧的控制条件继续生成。多轮之后就得到一条带有累积误差的生成轨迹。这条轨迹和真值能够一一配对。接下来训练条件不再是干净 GT 历史而是模型 rollout 出来的预测历史而监督目标仍然是真实的未来。这样一来模型第一次系统性地学习在输入已经被自己弄脏的情况下如何生成更接近真实轨迹的下一段。这里有个细节很重要。如果直接把预测历史和 GT 未来硬拼到一起边界会不连续。对于自动驾驶视频来说这种断裂非常致命因为模型可能学到一种“跳变式修复”画面质量上去了但世界不是连续演化的。所以 HorizonDrive 在边界附近引入 pred-to-GT 混合窗口在 latent 空间里把预测和真值平滑接起来其中在过渡窗口中从 1 逐渐衰减到 0。Scheduled Rollout Recovery 方法细节HorizonDrive 还提供了两个观察不连续修复比连续修复更容易。如果只追求下一段画面好看模型可以直接生成一个新的合理场景但自动驾驶仿真需要的是同一个世界持续演化不能随便换世界。所以 SRR 通过逐步增大的混合窗口让模型从易到难地学习修复。rollout 越往后误差越带有场景语义。早期误差在不同场景中可能很相似但随着生成持续进行误差会越来越依赖具体道路、车辆关系和运动状态。让 teacher 在这种误差上训练才能真正建模误差修复和场景的耦合关系让误差从“模拟”走向“真实”。TRD把 teacher 的长程修复能力交给 student经过 SRR 后被升级为。这个 teacher 已经不只是短视频生成器而是一个能在自身预测历史上继续生成、并尝试修复偏差的 rollout 模型。teacher 有了 rollout能力才使得超长时序的蒸馏成为可能。后面的过程就非常自然HorizonDrive 引入了 Teacher Rollout DMDTRD这是一个流式的 DMD 过程student 会一步步生成短块当几个短块覆盖到一个 teacher 块时就在对应区间上做分布对齐。然后学生继续生成重复上面的过程在显存有界的情况下最大限度地利用样本长度。除此之外TRD 还加入了 noise-truncated CFG。虽然 CFG 能增强条件控制和画面质量但在长 rollout 里很容易导致视频过饱和。因此 HorizonDrive 只在较低噪声区域使用 CFG并让阈值在训练中逐步下降实现从布局到细节的学习过程。完整目标可以写成HorizonDrive 通过消融实验证明SRR 模型不仅提升了教师的监督质量还提升了学生的初始化当学生和教师都使用 SRR 模型初始化时性能达到最佳。长视频效果在 nuScenes 上HorizonDrive 和多种长时序 baseline 做了对比。结果显示它不仅让视频更好看也让几何关系和自车运动更稳定。和现有世界模型相比HorizonDrive 显著提升了长视频画面质量和几何精度相较于代表性基线HorizonDrive 的 FID 降低 52%FVD 降低 37%轨迹精度提升 21%。这些数字背后反映的是同一个问题模型在长 rollout 中不只是局部画面更清晰而是道路结构、车辆位置和自车运动关系更不容易散掉。定性对比也能看得更直观。其他方法在长视频里更容易出现道路边界漂移、车辆形态不稳或者背景结构断裂HorizonDrive 则能更稳定地维持整个场景。nuScenes 对比结果 1附录中的更多场景也有类似趋势。在不同道路、天气和交通布局下HorizonDrive 的画质和几何一致性都保持得更好。nuScenes 对比结果 2nuScenes 对比结果 3更有意思的是在数十轮交互生成后HorizonDrive 的视频质量仍然可以接近非自回归模型单轮生成的效果。这一点比单个短片段的质量更能说明问题模型确实在处理长期误差累积。长时序扩展从 20 秒到一分钟nuScenes 本身的数据长度有限评测通常落在 20 秒级别。为了看更长的 rolloutHorizonDrive 还在自采数据上展示了 30 秒甚至接近一分钟的连续自回归生成。这些场景覆盖了不同天气、道路结构、自车运动和交通交互。模型在更长时间里仍然能保持画面质量和结构稳定性。自建数据集对比结果 1自建数据集对比结果 2一分钟长视频效果闭环仿真让 planner 面对自己决策后的世界闭环仿真的实际效果如下HorizonDrive 和 planner 的闭环交互补齐了应用场景这一环。将 HorizonDrive 用于闭环仿真在这个循环里planner 根据世界模型当前生成的画面规划下一步轨迹HorizonDrive 再把这条轨迹和地图、车辆布局等条件编码回来生成下一段环境反馈。几轮之后生成画面可能会和真实画面出现错位因为 planner 做出了不同于真值的决策也就看到了不同的世界。推理速度方面论文给出的结果是在单卡 NVIDIA RTX 5090 上HorizonDrive 使用 4-step student denoiser每次自回归生成 10 帧。256×512 分辨率下约 5.6 FPS384×768 分辨率下约 1.7 FPS。这个速度还不能说明问题已经完全解决但它表明 TRD 蒸馏后的 student 已经具备了面向交互式仿真的基础效率。写在最后回顾整篇论文HorizonDrive 最大的特点还是它与现有方法的路线差异仅依赖模型内在的抗误差能力实现稳定的长视频生成质量和几何一致性。对自动驾驶世界模型来说这可能是一条更干净、也更容易 scaling 的路线。又或许多种方法的结合是一个更优的解。但无论如何HorizonDrive 的尝试是有价值的。他们会直接告诉你实车上的表现如何这也是我们每次看地平线文章都忍不住点赞的。就拿上面闭环仿真的结果来说刹车灯、单黄线、转向灯/红绿灯闪烁建模、斑马线、远处的红绿灯等等这些元素搞闭环仿真的同学应该都懂的。自动驾驶之心求点赞求分享求喜欢

相关新闻

从游戏玩家到创作者：掌握Harepacker复活版打造专属MapleStory世界

为什么IoT和边缘计算场景下，C/C++写的iSula比Docker更“香”？一次深度对比

终极怀旧游戏复活指南：如何在Windows 11上轻松启用IPX/SPX协议支持

别再只用time.sleep了！用Python schedule库给你的脚本加上“智能闹钟”（附完整代码）

2026这6款宝藏降AIGC平台大曝光，一键秒降AI率至安全区！

SpringBoot自动配置类顺序控制：@AutoConfigureBefore/After实战避坑指南

如何将任意网页永久保存为电子书：WebToEpub完整使用指南

从像素到图片：HarmonyOS PixelMap 的创建、加载与展示全解析

Unity游戏UI实战：5分钟为你的主界面添加一个可交互的自动滚动列表

大模型是“大脑“ Agent是“四肢“：AI智能体如何让AI从“空想家“变“实干家“？

AzurLaneAutoScript：碧蓝航线智能自动化脚本，彻底解放你的游戏时间

这次终于选对了！降AIGC工具测评：2026 最新好用推荐与对比分析

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势