非对称博弈下多UUV 基地防卫协同对抗策略

2022-04-21王宏健于丹徐欣张宏翰陈涛

智能系统学报 2022年2期

王宏健，于丹，徐欣，张宏翰，陈涛

（1.哈尔滨工程大学智能科学与工程学院，黑龙江哈尔滨 150001;2.浙江大华技术股份有限公司，浙江杭州 310053）

无人水下航行器[1]（unmanned underwater vehicles,UUV）是小体量、强自主性、高隐蔽性的水下机器人之一。现阶段正在研究的UUV[2]可集成具有打击能力的任务载荷，不仅能够执行探测任务，还可以执行攻击任务。在探测信息共享[3-5]的前提下，在一定范围内通过水声通信能够实现多UUV 的水下协同对抗，可以克服单UUV 的能力局限，提高完成对抗任务效能[6]。近期无人机在美军中的不断使用也表明：无人平台在军事领域内的应用以及利用无人平台配合完成作战任务将成为未来对抗形态的发展趋势[7]。美国捕食者无人机[8]是一种最为典型的察打一体无人机，可长时间对重要地面目标和低速低空目标进行侦察、识别和监视。LDUUV 项目[9]是美国于2011 年开始研制测试的一款可搭载具有打击能力的任务载荷的大直径重型无人潜航器。

关于多UUV 对抗的研究现阶段较少，开放的文献不多，关于对抗的研究主要集中于多UUV 围捕问题。在追逃问题研究中文献[10]在“图清理”方法的基础上，应用精英遗传算法于围捕问题中。文献[11]提出了一种分散的围捕策略，可以在有限时间内捕获入侵智能体。文献[12] 基于apolonius 圆提出了动态围捕入侵智能体的方法。文献[13]利用生物激励神经网络解决多机器人围捕问题，通过计算并选择相邻细胞神经网络的最大活动值，得到参与围捕的机器人的围捕路径，实现有效围捕。文献[14]设计了对足球机器人团队角色和任务进行分工的模糊推理系统，主要研究足球机器人角色和行为切换机制。文献[15]提出一种基于狮群算法多AUV 围捕方法，实现在围捕中最佳围捕者的选择和围捕任务中的角色分配。

无人系统协同对抗要求“参与者”协调行动，以获得最大利益为核心目标，根据环境信息、敌方信息以及我方对抗态势不断选择策略[16]。现阶段对于无人系统协同对抗的研究对象多为机器人、无人机[17]和地面无人车，主要研究集中于对抗中的任务分配、作战方式、干扰手段。自然进化计算[18]、社会进化计算[19]、生物智能计算[20]、群集智能计算[21]等智能算法也被大量运用于武器分配、协同搜索、追逃围捕等问题的研究中来。文献[22]应用空间链路调度算法研究多机器人任务协调分配问题。文献[23]提出近似规划方法研究一对一空战，解决无人机空战对抗飞行控制问题。文献[24]讨论无人机对地空战问题，不仅给出协同策略，还考虑了武器、无人机数量以及地面防御系统设置等问题。文献[25]研究多无人机对抗，设计多无人机对抗实验案例，对不同角色的无人机设计了行为集，无人机根据对抗过程中的态势，从行为集里选择最优行为完成对抗过程。文献[26]研究了有人机和无人机协同作战，主要聚焦于对抗期间的飞行路径规划。

由于水下对抗环境复杂、通信受限、探测能力受限，关于水下对抗的研究现阶段还较少。文献[27]主要研究水下对抗过程中的传感器探测组网问题，比较了不同度量条件下的探测性能。文献[6]验证粒子群优化对水下多AUV 协同对抗的动态博弈模型求解的有效性。文献[28] 研究多UUV 对抗过程，并给出对抗过程中态势评估及策略选择方案。随着无人系统的不断发展，水下对抗问题正引起国内外诸多学者的广泛关注。

从上述研究中可以看出，在诸多已有的研究中，对抗问题主要存在以下问题：1）单个UUV 策略选择研究多，多UUV 协同决策研究少，单方面策略优化选择研究多，双方策略对抗博弈研究少；2）研究对抗双方无能力差异的情况多，研究“多对一”、“弱对强”的少。本文从无人对抗的角度考虑水下多UUV 对抗存在的通信、自主决策等问题，设计多UUV 对抗过程。针对对抗中的策略选择与角色分配问题，以多UUV 基地防卫作为对抗任务背景，提出一种基于角色分配的多UUV 协同对抗策略选择方法，完成多对一攻防对抗任务仿真。

1 基地防卫任务想定与研究约束条件

基地防卫任务想定：如图1 所示，红色小旗为红方被保护区域，蓝方UUV（图中以黄色UUV 示意）在本次攻防任务中为攻击方，其任务为破坏红方基地，当蓝方UUV 成功对红方被保护基地造成破坏，认定红方本次攻防任务失败。红方多UUV 通过攻击、防守、围捕等手段保护基地不被摧毁，则认定红方本次攻防任务成功。

图1 对抗情形Fig.1 Confrontation situation

本文主要研究在对抗中双方的策略选择问题，因此不考虑红方水声通信时延，多UUV 间的通信定义为双工实时通信，红方UUV 能够通过预置的水下监听装置探测到蓝方UUV 的位姿信息，蓝方则通过被动声呐探测一定范围内的红方UUV 位姿信息。在对抗过程中，双方的攻击方式均为发射任务模块，双方的策略对对方不可知的，所有参与对抗的UUV 仅能通过声呐探测到武器。为方便理论研究和设计仿真实验，对参与对抗的UUV 的尺寸和机动能力以及武器参数等比例地缩小，表1 所示为UUV 的参数配置。

表1 红蓝UUV 配置参数Table1 Configuration parameters of red and blue UUVs

2 设计UUV 运动控制器

由于本文所研究的多UUV 对抗过程中的机动行为不包括升潜运动，所以本文利用增量式PID 根据UUV 的控制需求，设计UUV 三自由度运动控制器。将控制UUV 水平面运动的增量式PID 运动控制器分为两部分：速度控制器和艏向控制器。由于本文所研究的UUV 是欠驱动的，无法控制UUV 的横向速度，因此，UUV 的速度控制主要是通过控制UUV 的纵向推力来控制UUV的纵向速度，使得UUV 的实际纵向速度达到期望速度。艏向控制器是通过控制UUV 的转艏力矩来控制UUV 的艏向，使其实际艏向达到期望艏向。基于增量式PID 设计的UUV 水平面运动控制器如图2 所示。

图2 基于增量式PID 的UUV 运动控制框图Fig.2 UUV motion controller based on incremental PID

3 UUV 基本行为定义

根据参与对抗的UUV 所执行的任务和分配到的角色将UUV 的基本行为划分成以下5 种：

1)逃逸

这一基本行为是指当UUV 受到任务模块威胁时，通过艏向控制，选择最快远离威胁的方向进行逃逸。如图3 所示，设 ψtor为任务模块的艏向角，ψR为UUV 艏向角，任务模块的航向向量为T，UUV 的航向向量为H。此时，若任务模块位于UUV左舷，则UUV 逃逸方向即此时的期望艏向为

图3 针对任务模块的逃逸方向Fig.3 Escape direction for mission modules

式中：

UUV 在针对来袭UUV 的逃逸方向选择上借鉴人工势场[29]的思想如图4 所示。

图4 针对来袭UUV 的逃逸方向Fig.4 Escape direction for incoming UUV

来袭UUV 相当于给己方UUV 生成一个斥力，力的大小与来袭UUV 与己方UUV 的距离成反比，若出现多个来袭目标对UUV，则叠加这些目标产生的斥力，得到的合力方向即为UUV 的逃逸方向。斥力计算公式为

式中：η为斥力比例系数；di为来袭UUVi与己方UUV 的距离；dtr为己方UUV 的威胁警示范围；n为正整数；(x0,y0)为己方UUV 的坐标；(xi,yi)为来袭UUV 的坐标；与分别为x与y轴的单位向量，斥力合力的计算公式为

式中：j为来袭UUV 的个数。最后，可得到UUV的逃逸方向为

如果UUV 在被任务模块威胁的同时探测到有来袭UUV，则不得不同时考虑两种威胁来选择逃逸方向，则同时计算式(3)、(4)确定逃逸方向。

2)UUV 向定点运动

这一基本行为是UUV 最基本的运动行为，如图5所示，定点的坐标(Mx,My)，UUV 坐标(x,y)，则期望艏向角计算公式为

图5 UUV 朝某点运动Fig.5 UUV moving towards a point

3）基本攻击行为

这一基本行为指处于可攻状态的UUV 计算得到任务模块命中点，并发射任务模块的过程。

4）避碰

这一基本行为区别于敌我双方避障，主要针对合作关系的红方UUV 需要时刻避免发生位置冲突。

5）追踪

这一基本行为是指使追踪UUV 的艏向始终跟随目标UUV 的位置，也就是使目标UUV 始终位于追踪UUV 的0°舷角位置[30]，如图6 所示。设追踪UUV 坐标为(x,y)，目标UUV 当前坐标为(xe,ye)。

图6 UUV 追踪行为Fig.6 UUV Tracking Behavior

4 基于任务-角色-行为分层的红方多UUV 协同对抗方法设计

红方策略是一种UUV 群体的策略，本文提出一种基于总任务分解的任务-角色-行为分层的多UUV 协同对抗方法。算法设计的群体策略生成机制如图7 所示，根据威胁评估结果将UUV 任务分为，即驱逐、紧急返回、攻击-防卫3 种；根据不同的任务将UUV 分为4 种不同的角色分别为，即追踪UUV、返航UUV、核心攻击UUV 和辅助攻击UUV。策略适用情况与策略制定理由如表2。

表2 红方多UUV 任务选择及相应参数表Table2 Red side multi UUV task selection and corresponding parameter table

图7 红方多UUV 任务及角色行为示意图Fig.7 Red UUVs task and role behavior diagram

4.1 考虑目标航向偏角的多UUV 协同防卫方法设计

确定UUV 角色后根据角色和蓝方UUV 态势从而确定红方多UUV 的协同防卫策略是红方多UUV 基地防卫任务的重点。蓝方UUV 航向偏角从一定程度上能够反映威胁意图，航向偏角越小，威胁意图越强，本文提出基于目标偏航角的协同防卫方法。如图8 所示，目标航向偏角为UUV 的航向同它与红方基地的连线的夹角β(t)为目标航向偏角。

图8 目标航向偏角与目标距离Fig.8 Target heading angle and target distance

由于蓝方机动性能强于红方，因此，若是将本文的多对一对抗过程简化为一对一，当蓝方UUV受到单一威胁，蓝方机动逃逸成功率高，使得红方UUV 整体作战效能差[31]。如图9 所示，UUVR2的任务模块本身并不是有效的，若是UUVB 保持之前航线运动，UUVR1发射的任务模块将有效，若是UUVB对UUVR1发射的任务模块进行避碰，UUVR2的任务模块将变成有效的。所以采取基于目标航向角的联合打击方式对蓝方UUV 进行打击。

图9 UUV 攻击方式Fig.9 UUV attack mode

4.1.1 蓝方UUV 大航向偏角多UUV 联合防卫方法

蓝方UUV 的航向偏角如图中β(t)>90°时，设计如图10 所示的联合防卫方式。根据上文设计的角色分配原则，UUVR2为核心攻击UUV，承担攻击任务，将UUV 完成任务需要到达的目标点命名为策略点，核心攻击UUV 发射任务模块的阵位点就是其策略点，任务模块命中点为P2。UUVR1和UUVR3为辅助攻击UUV，其策略点为P1、P3也是发射任务模块的阵位点。此时，任务优先级设置为辅助攻击UUV>核心攻击UUV，若辅助攻击UUV 在向策略点运动过程中出现冲突，那么与蓝方UUV 距离近的UUV 拥有更高的优先级。

图10 蓝方UUV 大航向偏角红方多UUV 联合防卫方法Fig.10 Blue UUV large heading angle red UUVs joint defense method

在确定核心攻击UUV 后，可以得到在核心攻击UUV 发射任务模块的任务模块命中点P2(P2x,P2y)，则P1(P1x,P1y)、P3(P3x,P3y)策略点的计算方式为

式中：β=arctan(Vm/VB)，其中Vm为红方UUV 任务模块速度；VB为蓝方UUV 速度；ψB为蓝方UUV 艏向角。L为红方UUV 的任务模块射距。

4.1.2 蓝方UUV 中小航向偏角时多UUV 联合防卫方法

蓝方UUV 的航向偏角为0≤β(t)<90°时，采用如图11 所示的联合防卫。此时承担攻击任务的核心攻击UUV 为UUVR3，P3是命中点。UUVR1、UUVR2作为辅助攻击UUV，其策略点仍然是阵位点为图中的P1、P2或、。此时，任务优先级定义为核心攻击UUV＞辅助攻击UUV，若辅助攻击UUV 在向策略点运动过程中出现冲突，那么同样的与蓝方UUV 距离近的红方UUV 拥有更高的优先级。

图11 蓝方UUV 中小航向偏角红方多UUV 联合防卫方法Fig.11 Blue side UUV small heading angle red side UUVs joint defense method

确定核心攻击UUV 后，可以得到在核心攻击UUV 发射任务模块的时刻蓝方UUV 的位置U2(U2x,U2y)以及该UUV 的阵位点位置U1(U1x,U1y)与任务模块命中点P3(P3x,P3y)，又已知红方区域的坐标为(Mx,My)，定义P1(P1x,P1y)为阵位点关于蓝方UUV 航向的对称点，则P1(P1x,P1y)、P2(P2x,P2y)、策略点的计算公式为

式中：β=arctan(Vm/VB)，其中Vm为红方UUV 任务模块速度，VB为蓝方UUV 速度。r为红方UUV 的任务模块极限射距。

上述联合攻击策略具有两个优点：1)能够使得红方UUV 发射的任务模块有效威胁蓝方UUV，提高红方多UUV 整体对抗效能；2)在红方某个UUV 受到蓝方UUV 或其发射的任务模块威胁时，其他UUV 仍然具有对蓝方UUV 产生威胁的能力。

4.2 基于任务优先级的多UUV 协同角色分配方法

针对从任务层向角色层的角色分配和切换问题，本文设计基于对抗任务的松散耦合的多UUV体系，提出一种多UUV 协同方法−基于任务优先级的多UUV 协同角色分配算法。

本文研究的多UUV 对抗过程环境态势实时变化，因此在红方多UUV 角色分配时，UUV 的角色也应当是根据实时变化的对抗环境不断变换的。因此需要根据环境和敌我双方态势变化，设计可以动态调整角色任务的多UUV 协同角色分配算法，使之能够适应对抗性环境和对抗任务。算法流程如图12 所示。

图12 分层决策算法流程图Fig.12 Role assignment algorithm

分层决策算法的步骤如下：

1)红方多UUV 对当前自身态势进行评估和分析，得到当前态势等级分为：低、中、高；

2)根据上文中提出的多UUV 分层决策算法，进行多UUV 任务分配，确定当前策略；

3) 根据不同UUV 的任务，确定UUV 角色；

4)按照角色各个UUV 选择基本行为，展开红蓝双方对抗的底层行为；

5)当前任务是否发生核心攻击UUV 失效或红方对抗任务变化？若是，则说明完成一次联合防卫，重新评估威胁等级，转至1)若对抗结束(蓝方或红方对抗总任务失败)，结束。

从图12 中可以看出，在追踪和返航策略下UUV 角色是确定的，而在攻击防卫下就需要对UUV角色进行分配。本文基于贪心算法和市场法提出一种角色分配方法，在UUV 策略点选择有冲突时基于贪心算法，对有相同策略点的UUV 计算其与策略点的距离，根据距离最短原则确定核心攻击UUV，其余辅助攻击UUV 的策略点分配也依照这种原则。当策略点没有冲突时，多UUV的策略点分配则如图13 所示，按照“时间均衡原则”。核心攻击UUVj，UUVj的当前位置与其任务点的距离为d。那么辅助攻击UUVi位置(xi,yi)与其策略点(xem,yem)之间的距离可以表示为

图13 “时间均衡原则”匹配策略点Fig.13 Time balance principle

则方差可表示为

令F=min{S1,S2,···,Sm}策略点匹配方案即为所求。

5 蓝方策略制定

由于参与对抗的蓝方UUV 只有一个，因此蓝方只考虑自身利益选择策略，单个UUV 的行为就是蓝方参与对抗时所选择的策略。蓝方UUV策略选择表如表3 所示。

表3 蓝方UUV 策略选择表Table3 Blue UUV strategy table

6 仿真分析

6.1 多UUV 协同攻防算法有效性分析

仿真实验是在Windows10，QT5.6 下进行的。设计实验参数：红方被保护区域的坐标为（30,50），仿真水域大小为1 050 m×1 050 m，表4 所示为红、蓝双方UUV 的初始设置。

表4 红方UUV 与蓝方UUV 初始速度与位姿Table4 Initial velocity and pose of red and blue UUVs

从图14 中的红方UUV 威胁评估等级变化曲线可以看出，红方UUV 威胁等级始终处于低或中，说明红方在对抗过程中策略选择适当，红方始终未陷入危险。

分别分析表5 中红方UUV 对蓝方UUV 发起的3 次有效攻击过程。蓝色部分为第1 次有效攻击；橙色部分时第2 次有效攻击，白色部分为最后1 次有效攻击。红方多UUV 从任务（策略）-角色-行为-运动特性的角度分析，蓝方从态势-策略-行为-运动特性逻辑流分析：

1）红方多UUV：在t4到t5过程中红方UUV1和UUV2已经逐渐逼近蓝方UUV，此时纵向速度减小，到达攻击阵位点时，纵向速度最小。作为第一次进攻的核心攻击UUV−红方UUV2首先到达阵位点，并发射任务模块，UUV1随后到达发射任务模块，对蓝方UUV 产生威胁。蓝方UUV：t5时刻蓝方UUV 陷入危险，此时根据表5 可知，蓝方UUV 采取逃逸策略；同时，在图14、15 中可以分别看出t5时刻蓝方UUV 推力增大，纵向速度增大，艏向发生改变执行逃逸动作。可以看出对抗过程中的第一次正面交锋双方策略选择合理，多UUV 角色分配合理，双方运动特性符合所选策略下的基本行为。

图14 红蓝UUV 纵向速度与艏向角变化及威胁评估等级Fig.14 Longitudinal velocity and heading angle of red and blue UUV and threat assessment level

表5 攻防过程红蓝UUV 行为与态势Table5 Behavior and situation of red and blue UUVs in attack and defense process

2）红方多UUV：由于经历上一次攻击后，红方UUVs 都在蓝方UUV 附近，只需要通过调整艏向即可到达阵位点。UUV1和UUV3在第二次有效攻击过程中分别承担核心攻击UUV，从图13中可以看出UUV1和UUV3调整艏向到达阵位点。从图14 可以看出UUV2作为辅助攻击UUV通过推力控制使得其运动始终平稳，承担追踪和辅助攻击角色。蓝方UUV：从表5 可以看出红方UUV 在此过程中两次向蓝方UUV 发射任务模块，导致在t9、t13时刻蓝方UUV 调整艏向逃逸。可以看出红方多UUV 策略选择成功，对蓝方产生威胁，但蓝方凭借优于红方的机动能力逃脱。

3）红方UUV：红方UUV 采取追踪策略，调整艏向，追踪蓝方。由于UUV3进入蓝方探测范围，被蓝方攻击，在t14时刻UUV3推力增大，纵向速度增加，执行逃逸行为。蓝方UUV：由于任务模块耗尽，态势评估自动评估为高，为保存实力撤退，导致任务失败。

6.2 多UUV 协同攻防算法优越性分析

本文的重点和创新点在于多UUV 分层决策算法，该算法的核心是多UUV 分布式合作，根据整体的威胁态势切换策略，根据策略要求，按照各自角色选择行为。针对多UUV 的行为选择，为了避免冲突，设计基于任务优先级的行为选择算法。如图16 所示为未设计优先级的多UUV 攻防对抗仿真，由于红方多UUVs 在事先未设计优先级，如左图UUV2和UUV3同时选择同一个策略点前进，导致距离过近来不及躲避，使得执行任务时产生冲突，最终导致任务失败。

图15 红蓝方UUV 推力Fig.15 UUV thrust

图16 多UUV 对抗冲突Fig.16 UUV conflict behavior

7 结束语

本文主要研究水下多UUV 协同对抗策略选择问题，设计以保护基地为背景的水下UUV“多对一”攻防对抗仿真实验。本研究与以往多UUV 对抗问题研究的不同点在于，不是仅研究UUV 的机动围捕问题，而是研究集成具有打击能力任务载荷的UUV 的对抗问题；与以往研究具有打击能力无人平台对抗的不同在于，设计了对抗双方机动能力和打击能力的差异性。不同于以往的基于编队的多智能体协同，而是根据对抗环境提出蓝方对抗策略和红方多UUV 动态角色分配方法，利用角色分工与任务优先级法对红方UUV 群体进行协调。在研究中，考虑实际对抗情形，基于蓝方UUV 航向偏角的大小提出红方多UUV 联合对抗策略，提高红方UUV 作战效能。通过设计仿真实验验证了本文所提角色分配方法和红蓝双方策略设计的合理性，完成“以弱胜强，以多敌寡”的多UUV 水下攻防对抗过程。