摘 要: 针对目前高炮反无人机系统存在的打击效率低和适应能力不足等问题提出一种融合态势信息和层次化多目标奖励的多智能体深度强化学习高炮反无人机算法。首先以火力打击系统反无人机为背景对高炮反无人机防御场景的问题进行定义。其次将高炮反无人机任务转化为马尔可夫决策问题构建决策智能体并定义其状态空间、动作空间以及奖励函数具体而言为了提升智能体的全局态势感知能力将多源态势信息融合到状态空间中此外针对高炮反无人机的特点和火控延迟特性设计了一套层次化多目标的奖励机制用于指导智能体的决策过程。最后采用基于单调值函数分解的深度多智能体强化学习对智能体进行训练并基于仿真环境进行验证。实验结果表明在三种不同的反无人机场景中本文算法的任务完成度分别达到了 86% 88% 和 78% 较其他流行的多智能体深度强化学习算法平均提升了 48 9% 显著提升了高炮反无人机系统的打击效率和战场适应能力为高炮反无人机提供了有效的智能解决方案。0 引言随着人工智能与无人机技术的快速发展无人机蜂群凭借其集群规模优势与协同作战能力在现代战争中展现出 显 著 战 术 价 值对传统防空体系构成严峻挑战1 2。传统反无人机手段包括电磁干扰、激光拦截和火力打击等3 5其中高炮反无人机拥有成本效益比高、拦截能力强以及技术相对可靠成熟等优势而被广泛应用于实战中6 9。然而传统高炮打击系统虽然能够对无人机进行硬摧毁但是面对多目标攻击时存在打击效率较低和适应能力差等问题。围绕传统高炮打击系统的不足既有研究通过智能算法优化提升了传统高炮系统的作战效能。张弛等10建立的混合优化目标分配模型通过毁伤概率与资源消耗双目标优化改进了决策效率。文献11 12在非支配排序遗传算法的基础上进行改进拓展及应用实例测试了模型的有效性和适用性。乔勇军等13引入基于 Q 学习的强化学习框架初步验证了智能决策的可行性但受限于表格方法的维度灾难问题。这些方法虽取得阶段性进展但是在高维动态战场环境下面对多目标仍然存在打击效率相对较低、适应能力差等瓶颈。针对上述挑战在对多智能体强化学习14进行研究后提出一种融合态势信息和层次化多目标奖励的多智能体强化学习高炮反无人机算法框架( Situational FusedHierarchical Multi Objective Multi agent einforcementLearning for Counter UAV SystemsSF HIMO) 旨在增强高炮反无人机系统的打击效率和智能化程度。具体来说该框架通过融合多源战场态势信息( 如火力分布、威胁程度、对方轨迹等) 有效提升了火力系统的全局态势感知能力。同时考虑到火控延迟特性和高炮反无人机的特点设计了一套层次化多目标的奖励函数包括多样性探索、任务目标的延迟满足与即时反馈、资源优化机制、行为约束机制以及任务成败的全局奖励有效引导智能体在动态环境中实现高效协作与任务完成。此外本框架基于单调值函数分解的深度多智能体强化学习( Monotonic Value Function Factorisation for Deep Multi Agent einforcement LearningQMIX) 算法扩展通过价值函数分解处理多智能体信用分配问题。1 高炮反无人机防御问题定义研究的问题以火力打击系统反制无人机为背景目的在于给定作战环境以及条件的情况下模拟对方无人机编队来袭防御方无人武器平台对其进行打击的过程通过多智能体强化学习的方法完成对无人武器平台的火力打击位置分布以及动态火力配置问题的求解。假设在某次反无人机作战行动中某场景长为 L宽为 W高为 H对方无人机、防御方布防的无人武器平台以及防守要地均只存在或活动于场景中。如图 1 所示场景中防御方存在一个防守要地无人武器平台( 即机动火力单元) n 个对方自杀式无人机 m 个分别从各自位置按某一速度 vA U V 向防御方防守要地袭来其防守能力为 ξ防御方无人武器平台装载高炮和雷达移动速度为 vUGV自主在区域内移动其攻击范围为ρminρmax雷达感知半径为 ρradar射击初速度为 v0射击冷却时间为 tcool杀伤力为 ω当无人机进入防御方无人武器平台的攻击范围时认为可以进行开火。整个过程的目标是在动态过程中寻找最佳的火力打击位置分布和火力分配方式使得防御方可以成功保护防守要地最大化对对方的打击效果。2 高炮反无人机算法设计在高炮反无人机任务中为每个装载高炮的无人武器平台均构建一个智能体其运行流程如图 2 所示。首先智能体从高炮反无人机防御环境中获取初始状态信息( 包括基础信息和多源态势信息) 。其次智能体根据基于观测到的状态利用 QMIX 算法的人工神经网络进行高炮反无人机任务的决策( 包括移动方向和向某无人机开炮等) 。然后高炮打击系统执行决策动作作用于防御环境。最后动作执行完成之后智能体得到奖励并重新观测环境状态循环上述过程。体只能访问自己的动作 观测历史。2 2 融合多源态势信息的状态空间设计多智能体系统中状态空间的设计包括局部观测空间 O 和全局状态空间 S。2 2 1 局部观测空间局部观测空间由每个实体信息组成( 如高炮、无人机和防守要地) 针对高炮反无人机的特点将实体信息定义为基础信息和多源态势信息两个部分旨在利用多源态势信息提高智能体的全局态势感知能力。基础信息包括智能体的属性、编号、雷达探测标记、位置、速度、运动方位等。多源态势信息则包括威胁度、远界、近界、飞行时间和距离目标时间等通过构建多源态势信息融合的框架整合威胁评估、火力分配区域以及时敏信息来提升高炮的全局态势感知能力。威胁度计算通过多属性决策算法6综合目标距离、相对速度、航路捷径及高度等多维特征生成归一化威胁度指标。具体而言设目标集合为 T { Ti | i 1…m} 特征矩阵 X∈R m × 4:针对高炮反无人机的问题本文提出一种融合态势信息和层次化多目标奖励的多智能体强化学习反无人机算法( SF HIMO) 构建了高炮反无人机防御场景并对方法进行验证。得到如下主要结论:( 1) 在设计的三种场景中进行训练和测试SF HIMO 相比其他流行的多智能体强化学习算法均能取得最高的任务完成率且收敛稳定性最佳。( 2) 对 SF HIMO 算法的多源态势信息模块和层次化多目标奖励机制进行消融实验结果表明两个模块均对算法的性能有贡献。
基于多智能体深度强化学习的高炮反无人机算法
摘 要: 针对目前高炮反无人机系统存在的打击效率低和适应能力不足等问题提出一种融合态势信息和层次化多目标奖励的多智能体深度强化学习高炮反无人机算法。首先以火力打击系统反无人机为背景对高炮反无人机防御场景的问题进行定义。其次将高炮反无人机任务转化为马尔可夫决策问题构建决策智能体并定义其状态空间、动作空间以及奖励函数具体而言为了提升智能体的全局态势感知能力将多源态势信息融合到状态空间中此外针对高炮反无人机的特点和火控延迟特性设计了一套层次化多目标的奖励机制用于指导智能体的决策过程。最后采用基于单调值函数分解的深度多智能体强化学习对智能体进行训练并基于仿真环境进行验证。实验结果表明在三种不同的反无人机场景中本文算法的任务完成度分别达到了 86% 88% 和 78% 较其他流行的多智能体深度强化学习算法平均提升了 48 9% 显著提升了高炮反无人机系统的打击效率和战场适应能力为高炮反无人机提供了有效的智能解决方案。0 引言随着人工智能与无人机技术的快速发展无人机蜂群凭借其集群规模优势与协同作战能力在现代战争中展现出 显 著 战 术 价 值对传统防空体系构成严峻挑战1 2。传统反无人机手段包括电磁干扰、激光拦截和火力打击等3 5其中高炮反无人机拥有成本效益比高、拦截能力强以及技术相对可靠成熟等优势而被广泛应用于实战中6 9。然而传统高炮打击系统虽然能够对无人机进行硬摧毁但是面对多目标攻击时存在打击效率较低和适应能力差等问题。围绕传统高炮打击系统的不足既有研究通过智能算法优化提升了传统高炮系统的作战效能。张弛等10建立的混合优化目标分配模型通过毁伤概率与资源消耗双目标优化改进了决策效率。文献11 12在非支配排序遗传算法的基础上进行改进拓展及应用实例测试了模型的有效性和适用性。乔勇军等13引入基于 Q 学习的强化学习框架初步验证了智能决策的可行性但受限于表格方法的维度灾难问题。这些方法虽取得阶段性进展但是在高维动态战场环境下面对多目标仍然存在打击效率相对较低、适应能力差等瓶颈。针对上述挑战在对多智能体强化学习14进行研究后提出一种融合态势信息和层次化多目标奖励的多智能体强化学习高炮反无人机算法框架( Situational FusedHierarchical Multi Objective Multi agent einforcementLearning for Counter UAV SystemsSF HIMO) 旨在增强高炮反无人机系统的打击效率和智能化程度。具体来说该框架通过融合多源战场态势信息( 如火力分布、威胁程度、对方轨迹等) 有效提升了火力系统的全局态势感知能力。同时考虑到火控延迟特性和高炮反无人机的特点设计了一套层次化多目标的奖励函数包括多样性探索、任务目标的延迟满足与即时反馈、资源优化机制、行为约束机制以及任务成败的全局奖励有效引导智能体在动态环境中实现高效协作与任务完成。此外本框架基于单调值函数分解的深度多智能体强化学习( Monotonic Value Function Factorisation for Deep Multi Agent einforcement LearningQMIX) 算法扩展通过价值函数分解处理多智能体信用分配问题。1 高炮反无人机防御问题定义研究的问题以火力打击系统反制无人机为背景目的在于给定作战环境以及条件的情况下模拟对方无人机编队来袭防御方无人武器平台对其进行打击的过程通过多智能体强化学习的方法完成对无人武器平台的火力打击位置分布以及动态火力配置问题的求解。假设在某次反无人机作战行动中某场景长为 L宽为 W高为 H对方无人机、防御方布防的无人武器平台以及防守要地均只存在或活动于场景中。如图 1 所示场景中防御方存在一个防守要地无人武器平台( 即机动火力单元) n 个对方自杀式无人机 m 个分别从各自位置按某一速度 vA U V 向防御方防守要地袭来其防守能力为 ξ防御方无人武器平台装载高炮和雷达移动速度为 vUGV自主在区域内移动其攻击范围为ρminρmax雷达感知半径为 ρradar射击初速度为 v0射击冷却时间为 tcool杀伤力为 ω当无人机进入防御方无人武器平台的攻击范围时认为可以进行开火。整个过程的目标是在动态过程中寻找最佳的火力打击位置分布和火力分配方式使得防御方可以成功保护防守要地最大化对对方的打击效果。2 高炮反无人机算法设计在高炮反无人机任务中为每个装载高炮的无人武器平台均构建一个智能体其运行流程如图 2 所示。首先智能体从高炮反无人机防御环境中获取初始状态信息( 包括基础信息和多源态势信息) 。其次智能体根据基于观测到的状态利用 QMIX 算法的人工神经网络进行高炮反无人机任务的决策( 包括移动方向和向某无人机开炮等) 。然后高炮打击系统执行决策动作作用于防御环境。最后动作执行完成之后智能体得到奖励并重新观测环境状态循环上述过程。体只能访问自己的动作 观测历史。2 2 融合多源态势信息的状态空间设计多智能体系统中状态空间的设计包括局部观测空间 O 和全局状态空间 S。2 2 1 局部观测空间局部观测空间由每个实体信息组成( 如高炮、无人机和防守要地) 针对高炮反无人机的特点将实体信息定义为基础信息和多源态势信息两个部分旨在利用多源态势信息提高智能体的全局态势感知能力。基础信息包括智能体的属性、编号、雷达探测标记、位置、速度、运动方位等。多源态势信息则包括威胁度、远界、近界、飞行时间和距离目标时间等通过构建多源态势信息融合的框架整合威胁评估、火力分配区域以及时敏信息来提升高炮的全局态势感知能力。威胁度计算通过多属性决策算法6综合目标距离、相对速度、航路捷径及高度等多维特征生成归一化威胁度指标。具体而言设目标集合为 T { Ti | i 1…m} 特征矩阵 X∈R m × 4:针对高炮反无人机的问题本文提出一种融合态势信息和层次化多目标奖励的多智能体强化学习反无人机算法( SF HIMO) 构建了高炮反无人机防御场景并对方法进行验证。得到如下主要结论:( 1) 在设计的三种场景中进行训练和测试SF HIMO 相比其他流行的多智能体强化学习算法均能取得最高的任务完成率且收敛稳定性最佳。( 2) 对 SF HIMO 算法的多源态势信息模块和层次化多目标奖励机制进行消融实验结果表明两个模块均对算法的性能有贡献。