「给无人机装上“预判大脑”」当下低空城市无人机导航正遭遇显著技术瓶颈目录01 传统VLA模型的“短视”难题与破局思路02 双分支耦合流匹配实现视觉与动作协同推演2.1 多模态统一编码2.2 双分支网络分工与交互2.3 训练目标设计03 数据背后的能力与边界3.1 核心实验据解读3.2 指标的实际意义与局限性3.3 消融实验结论04 多条技术路线下的WorldFly定位05 现存短板与未来演进方向06 重构无人机导航的“决策逻辑”楼宇林立形成“城市峡谷”遮挡频发、视角急剧切换成为常态传统VLA模型仅依靠历史画面直接输出动作如同“走一步看一步”缺乏对未来场景的预判能力在陌生环境与长距离导航任务中极易失效。针对这一行业痛点清华大学团队推出WorldFly框架这也是业内首个将世界模型与VLA架构深度结合的无人机导航方案。该方案依托双分支耦合流匹配机制同步完成未来画面预测与导航动作搭配专门构建的城市峡谷穿越评测基准在视角剧变、强遮挡场景中展现出远超现有模型的泛化能力为空中具身智能的“预判能力”落地提供了全新技术路径。01 传统VLA模型的“短视”难题与破局思路近年来OpenFly、Pi-0-UAV等无人机VLA模型逐步落地实现了自然语言指令到飞行动作的端到端映射摆脱了专业操控指令的限制让无人机能够理解人类语义完成飞行任务。但这类模型存在一个核心短板本质属于反应式架构所有动作仅基于历史和当前视觉观测生成不会主动推演下一步乃至后续场景变化。在城市低空环境中无人机转弯、穿行楼宇时画面会发生剧烈变化视野被建筑遮挡后有效视觉信息中断反应式模型会因信息断层做出错误决策这也是当前无人机难以胜任复杂长时序导航的核心原因。图OpenFly总览与此同时自动驾驶、视频生成领域的世界模型已证明其场景预测价值但过往世界模型大多采用“先预测画面、再生成动作”的串行架构模块衔接松散无法适配无人机高速实时控制的需求。WorldFly的核心创新便在于打破这种割裂状态不再将场景想象与动作规划分为前后两个步骤而是采用双分支耦合架构让画面预测与动作生成并行交互用“脑中预判的未来场景”实时引导飞行决策。此外现有无人机评测数据集多聚焦开阔场景难以模拟城市楼宇间的极端工况。为此团队同步搭建城市峡谷穿越基准划分熟悉路口TEST-EASY与全新未知路口TEST-HARD两大测试集分别验证模型常规表现与零样本泛化能力。图数据集轨迹、指令词长与词云分布图02 双分支耦合流匹配实现视觉与动作协同推演图WorldFly整体架构图WorldFly整体以流匹配为基础拆解为世界模型分支、动作专家分支两大并行模块配合多模态编码与跨分支交互机制联合生成未来视频与飞行动作。整套架构摒弃串行设计两大分支共享时序噪声与语言指令做到场景想象与动作规划同频同步。2.1 多模态统一编码模型输入分为历史视觉画面、自然语言指令两类。语言指令使用T5编码器编码最大支持250个token可解析长距离、多转弯的复杂导航指令视觉帧通过LTX-Video的VAE编码器压缩至隐空间在保留空间布局的同时降低计算开销。为保证时序对齐模型对未来视觉、动作分支使用同一时间步添加高斯噪声确保画面推演与动作生成的进度保持一致。2.2 双分支网络分工与交互两个分支参数相互独立网络隐藏维度做差异化设计兼顾精度与推理速度。世界模型分支负责预判无人机执行动作后的第一视角画面构建空中虚拟沙盘动作专家分支将飞行指令编码为8维连续向量最终映射为10类标准化基础飞行动作。图双分支耦合架构细节图架构每隔固定层数设置双分支耦合块两大分支先完成自注意力计算再通过交叉注意力互通特征。动作分支可参考预判场景调整飞行策略世界模型也能依据规划动作修正画面形成双向闭环约束这也是架构的核心设计。2.3 训练目标设计模型总损失由世界模型损失与动作损失加权求和构成权重系数设为1保证两个分支训练优先级均等。整套框架基于流匹配目标优化学习从噪声还原真实画面与动作支持端到端联合优化降低工程部署难度。03 数据背后的能力与边界图不同模型在两大测试集性能对比表本次实验基于AirSim仿真平台开展选取Pi-0-UAV、OpenFly、随机策略作为对照采用导航误差NE、任务成功率SR、路径加权成功率SPL三大核心指标从常规场景、未知场景两大维度完成评测。3.1 核心实验据解读在TEST-EASY熟悉路口中OpenFly导航误差14.69米、任务成功率72%WorldFly导航误差降至7.92米成功率提升至87%路径加权成功率达73.25%预判能力有效减少飞行偏移。在难度更高的TEST-HARD全新未知路口传统模型性能大幅下滑OpenFly成功率仅16%Pi-0-UAV低至10%而WorldFly依旧保持31%的任务成功率导航误差31.08米综合性能接近OpenFly的两倍充分证明世界模型对零样本泛化的提升作用。图不同路径长度下各模型成功率对比图按照短、中、长路径进一步划分后可见所有模型性能均随航程增加而衰减但在长距离任务中OpenFly任务成功率归零World仍保留18.8%的完成率体现出长时序推理优势。针对画面生成质量的测试结果如下图世界模型画面预测质量指标表数据显示TEST-EASY与TEST-HARD场景下PSNR、SSIM、LPIPS指标平稳下降模型在陌生场景依旧能生成结构连贯的画面。3.2 指标的实际意义与局限性导航误差、成功率直接对应无人机低空作业的落地安全性米级误差就可能引发碰撞风险WorldFly在常规场景中将误差缩减近一半实用价值突出。零样本性能则决定模型能否快速适配不同城市航线降低场景定制成本。同时需要客观看待局限所有实验均基于仿真环境和真实场景的风扰、动态障碍物、复杂光照存在差距且当前动作空间仅包含标准化基础指令暂不支持连续变速、弧形飞行等复杂机动。3.3 消融实验结论图双分支耦合模块消融实验结果表团队通过移除双分支耦合块开展对照实验去除该模块后简单场景成功率从87%降至76%未知复杂场景从31%暴跌至21%。这证明双向交互是架构核心仅简单并行两个分支无法发挥世界模型的预判价值。04 多条技术路线下的WorldFly定位当前无人机VLA技术主要分为三类第一类是以OpenFly、Pi-0-UAV为代表的传统反应式VLA轻量化易部署但缺乏预判能力复杂场景容错率低第二类为串行式世界模型VLA方案预判能力强但推理延迟高无法满足实时飞行要求。WorldFly属于第三类并行耦合路线融合前两类优势解决了延迟与模块脱节问题。对比机器人领域的WorldVLA、VideoVLA等同类型模型WorldFly专门针对无人机大视角切换、高速运动的特性优化聚焦语言指令驱动的导航任务落地指向性更强。从行业趋势来看世界模型正从通用视觉生成工具转向具身任务专用模块。汽车、机械臂、无人机等不同载体都会根据自身运动特征定制架构通用大模型垂直细分已成行业主流方向。05 现存短板与未来演进方向首先是推理性能问题。实测在单张A100显卡上模型单步推理耗时7.81秒控制频率仅0.5Hz无法支撑高速动态避障等强实时场景。后续可通过模型剪枝、知识蒸馏、隐空间压缩等轻量化方案适配机载边缘设备。其次是场景与动作覆盖不足。当前数据集仅包含静态建筑未加入行人、飞鸟等动态障碍物也未模拟大风、雾霾等复杂气象。同时离散化动作空间限制了飞行灵活性扩充场景数据、优化动作设计是后续重点。此外仿真与现实存在域偏差后续可采用“仿真预训练真机微调”的虚实迁移方案缩小两者差距提升真实环境鲁棒性。06 重构无人机导航的“决策逻辑”WorldFly的核心价值是把无人机从“见招拆招”的反应式决策升级为“预判先行”的前瞻式决策。依托双分支耦合流匹配架构它解决了世界模型与VLA融合过程中的延迟、脱节难题搭配专属城市峡谷评测基准为低空复杂环境导航提供了可行方案。该工作填补了无人机领域世界模型VLA一体化方案的空白证明场景预判是突破传统VLA性能上限的关键。在低空经济快速发展的背景下城市巡检、物流、应急救援等场景都需要这类具备预判能力的无人机方案。图WorldFly联合视频与动作预测效果图当然算力开销、虚实差距、复杂场景适配等问题仍客观存在。世界模型与空中具身智能的结合尚处于早期阶段WorldFly是一次有效探索。随着轻量化、虚实迁移技术迭代这类方案有望逐步从仿真走向真实空域成为低空经济规模化发展的重要支撑。Ref论文标题WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation论文链接https://arxiv.org/pdf/2606.06147
清华提出WorldFly:首个耦合世界模型与VLA的无人机导航方案
「给无人机装上“预判大脑”」当下低空城市无人机导航正遭遇显著技术瓶颈目录01 传统VLA模型的“短视”难题与破局思路02 双分支耦合流匹配实现视觉与动作协同推演2.1 多模态统一编码2.2 双分支网络分工与交互2.3 训练目标设计03 数据背后的能力与边界3.1 核心实验据解读3.2 指标的实际意义与局限性3.3 消融实验结论04 多条技术路线下的WorldFly定位05 现存短板与未来演进方向06 重构无人机导航的“决策逻辑”楼宇林立形成“城市峡谷”遮挡频发、视角急剧切换成为常态传统VLA模型仅依靠历史画面直接输出动作如同“走一步看一步”缺乏对未来场景的预判能力在陌生环境与长距离导航任务中极易失效。针对这一行业痛点清华大学团队推出WorldFly框架这也是业内首个将世界模型与VLA架构深度结合的无人机导航方案。该方案依托双分支耦合流匹配机制同步完成未来画面预测与导航动作搭配专门构建的城市峡谷穿越评测基准在视角剧变、强遮挡场景中展现出远超现有模型的泛化能力为空中具身智能的“预判能力”落地提供了全新技术路径。01 传统VLA模型的“短视”难题与破局思路近年来OpenFly、Pi-0-UAV等无人机VLA模型逐步落地实现了自然语言指令到飞行动作的端到端映射摆脱了专业操控指令的限制让无人机能够理解人类语义完成飞行任务。但这类模型存在一个核心短板本质属于反应式架构所有动作仅基于历史和当前视觉观测生成不会主动推演下一步乃至后续场景变化。在城市低空环境中无人机转弯、穿行楼宇时画面会发生剧烈变化视野被建筑遮挡后有效视觉信息中断反应式模型会因信息断层做出错误决策这也是当前无人机难以胜任复杂长时序导航的核心原因。图OpenFly总览与此同时自动驾驶、视频生成领域的世界模型已证明其场景预测价值但过往世界模型大多采用“先预测画面、再生成动作”的串行架构模块衔接松散无法适配无人机高速实时控制的需求。WorldFly的核心创新便在于打破这种割裂状态不再将场景想象与动作规划分为前后两个步骤而是采用双分支耦合架构让画面预测与动作生成并行交互用“脑中预判的未来场景”实时引导飞行决策。此外现有无人机评测数据集多聚焦开阔场景难以模拟城市楼宇间的极端工况。为此团队同步搭建城市峡谷穿越基准划分熟悉路口TEST-EASY与全新未知路口TEST-HARD两大测试集分别验证模型常规表现与零样本泛化能力。图数据集轨迹、指令词长与词云分布图02 双分支耦合流匹配实现视觉与动作协同推演图WorldFly整体架构图WorldFly整体以流匹配为基础拆解为世界模型分支、动作专家分支两大并行模块配合多模态编码与跨分支交互机制联合生成未来视频与飞行动作。整套架构摒弃串行设计两大分支共享时序噪声与语言指令做到场景想象与动作规划同频同步。2.1 多模态统一编码模型输入分为历史视觉画面、自然语言指令两类。语言指令使用T5编码器编码最大支持250个token可解析长距离、多转弯的复杂导航指令视觉帧通过LTX-Video的VAE编码器压缩至隐空间在保留空间布局的同时降低计算开销。为保证时序对齐模型对未来视觉、动作分支使用同一时间步添加高斯噪声确保画面推演与动作生成的进度保持一致。2.2 双分支网络分工与交互两个分支参数相互独立网络隐藏维度做差异化设计兼顾精度与推理速度。世界模型分支负责预判无人机执行动作后的第一视角画面构建空中虚拟沙盘动作专家分支将飞行指令编码为8维连续向量最终映射为10类标准化基础飞行动作。图双分支耦合架构细节图架构每隔固定层数设置双分支耦合块两大分支先完成自注意力计算再通过交叉注意力互通特征。动作分支可参考预判场景调整飞行策略世界模型也能依据规划动作修正画面形成双向闭环约束这也是架构的核心设计。2.3 训练目标设计模型总损失由世界模型损失与动作损失加权求和构成权重系数设为1保证两个分支训练优先级均等。整套框架基于流匹配目标优化学习从噪声还原真实画面与动作支持端到端联合优化降低工程部署难度。03 数据背后的能力与边界图不同模型在两大测试集性能对比表本次实验基于AirSim仿真平台开展选取Pi-0-UAV、OpenFly、随机策略作为对照采用导航误差NE、任务成功率SR、路径加权成功率SPL三大核心指标从常规场景、未知场景两大维度完成评测。3.1 核心实验据解读在TEST-EASY熟悉路口中OpenFly导航误差14.69米、任务成功率72%WorldFly导航误差降至7.92米成功率提升至87%路径加权成功率达73.25%预判能力有效减少飞行偏移。在难度更高的TEST-HARD全新未知路口传统模型性能大幅下滑OpenFly成功率仅16%Pi-0-UAV低至10%而WorldFly依旧保持31%的任务成功率导航误差31.08米综合性能接近OpenFly的两倍充分证明世界模型对零样本泛化的提升作用。图不同路径长度下各模型成功率对比图按照短、中、长路径进一步划分后可见所有模型性能均随航程增加而衰减但在长距离任务中OpenFly任务成功率归零World仍保留18.8%的完成率体现出长时序推理优势。针对画面生成质量的测试结果如下图世界模型画面预测质量指标表数据显示TEST-EASY与TEST-HARD场景下PSNR、SSIM、LPIPS指标平稳下降模型在陌生场景依旧能生成结构连贯的画面。3.2 指标的实际意义与局限性导航误差、成功率直接对应无人机低空作业的落地安全性米级误差就可能引发碰撞风险WorldFly在常规场景中将误差缩减近一半实用价值突出。零样本性能则决定模型能否快速适配不同城市航线降低场景定制成本。同时需要客观看待局限所有实验均基于仿真环境和真实场景的风扰、动态障碍物、复杂光照存在差距且当前动作空间仅包含标准化基础指令暂不支持连续变速、弧形飞行等复杂机动。3.3 消融实验结论图双分支耦合模块消融实验结果表团队通过移除双分支耦合块开展对照实验去除该模块后简单场景成功率从87%降至76%未知复杂场景从31%暴跌至21%。这证明双向交互是架构核心仅简单并行两个分支无法发挥世界模型的预判价值。04 多条技术路线下的WorldFly定位当前无人机VLA技术主要分为三类第一类是以OpenFly、Pi-0-UAV为代表的传统反应式VLA轻量化易部署但缺乏预判能力复杂场景容错率低第二类为串行式世界模型VLA方案预判能力强但推理延迟高无法满足实时飞行要求。WorldFly属于第三类并行耦合路线融合前两类优势解决了延迟与模块脱节问题。对比机器人领域的WorldVLA、VideoVLA等同类型模型WorldFly专门针对无人机大视角切换、高速运动的特性优化聚焦语言指令驱动的导航任务落地指向性更强。从行业趋势来看世界模型正从通用视觉生成工具转向具身任务专用模块。汽车、机械臂、无人机等不同载体都会根据自身运动特征定制架构通用大模型垂直细分已成行业主流方向。05 现存短板与未来演进方向首先是推理性能问题。实测在单张A100显卡上模型单步推理耗时7.81秒控制频率仅0.5Hz无法支撑高速动态避障等强实时场景。后续可通过模型剪枝、知识蒸馏、隐空间压缩等轻量化方案适配机载边缘设备。其次是场景与动作覆盖不足。当前数据集仅包含静态建筑未加入行人、飞鸟等动态障碍物也未模拟大风、雾霾等复杂气象。同时离散化动作空间限制了飞行灵活性扩充场景数据、优化动作设计是后续重点。此外仿真与现实存在域偏差后续可采用“仿真预训练真机微调”的虚实迁移方案缩小两者差距提升真实环境鲁棒性。06 重构无人机导航的“决策逻辑”WorldFly的核心价值是把无人机从“见招拆招”的反应式决策升级为“预判先行”的前瞻式决策。依托双分支耦合流匹配架构它解决了世界模型与VLA融合过程中的延迟、脱节难题搭配专属城市峡谷评测基准为低空复杂环境导航提供了可行方案。该工作填补了无人机领域世界模型VLA一体化方案的空白证明场景预判是突破传统VLA性能上限的关键。在低空经济快速发展的背景下城市巡检、物流、应急救援等场景都需要这类具备预判能力的无人机方案。图WorldFly联合视频与动作预测效果图当然算力开销、虚实差距、复杂场景适配等问题仍客观存在。世界模型与空中具身智能的结合尚处于早期阶段WorldFly是一次有效探索。随着轻量化、虚实迁移技术迭代这类方案有望逐步从仿真走向真实空域成为低空经济规模化发展的重要支撑。Ref论文标题WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation论文链接https://arxiv.org/pdf/2606.06147