基于Stackelberg博弈的有人机/无人机混合集群辐射功率控制算法

2020-10-16时晨光丁琳涛周建江

无人系统技术 2020年4期

时晨光，丁琳涛，周建江

（南京航空航天大学雷达成像与微波光子技术教育部重点实验室，南京210016）

1 引言

随着电子对抗技术的不断发展，未来空战中，单一的有人机作战或无人机作战将很难满足作战需求。而有人机/无人机混合集群协同作战，可以充分发挥两者的优势，安全高效的完成作战任务，注定会成为未来空战中的一种重要作战形式。有人机/无人机混合集群通常由一架有人机和多架无人机组成，有人机作为长机，为无人机提供指挥和控制；无人机作为僚机，可以执行战场信息搜集、目标打击等危险的任务。在提高有人机战场生存能力的同时，又延伸了无人机的探测攻击距离，充分结合二者的作战优势，发挥综合效能。因此，有人机/无人机混合集群协同作战受到了国内外学者的广泛关注［1-8］。2016年，空军工程大学的钟赟等［3］采用一种区间直觉模糊多属性决策方法，对有人机/无人机编队决策分配过程中的属性值和专家建议的不确定性问题展开了研究。2017年，合肥工业大学的胡凯［4］建立了有人机/无人机混合编队协同能力的评估模型和优化模型，用以解决面向任务的有人机/无人机混合编队协同问题。针对有人机/无人机群对目标群协同作战的任务分配问题，2018年，空军工程大学的韩博文等［5］基于Holon 组织构建理论，根据有人机和无人机的任务资源需求和作战资源能力，探讨并构建了最优的有人机/无人机群的作战联盟。2019年，海军航空大学的薄宁等［6］提出了一种基于马尔科夫决策过程模型的策略，用于解决有人机/无人机的对地攻击作战行动规划问题。为了促进有人机/无人机编队协同作战技术发展，空军工程大学的罗维尔和魏瑞轩［7］对演示试飞验证进行了研究，详细论述了编队作战过程中试飞项目规划、环境构建、任务规划、虚拟试飞和结果评估等主要研究内容，为该领域相关技术的发展提供了指导。2020年，海军航空大学的吴立尧等［9］以无人机的运动学模型为基础，设计了一种路径跟踪为主、速度调节为辅的有人机/无人机编队队形变换策略，有效减轻了有人机驾驶员操纵压力并提高了编队队形变换效率。

近年来，Stackelberg 博弈已被广泛地应用在认知无线电以及雷达信号处理等问题中［10-13］。2010年，南京邮电大学的罗荣华和杨震［14］提出了认知无线电中基于Stackelberg 博弈的分布式功率分配算法，将主用户作为博弈模型中的领导者（Leader），认知用户作为跟随者（Followers），认知用户使用主用户的工作频段时需要支付给主用户相应的费用，而主用户则通过调整干扰功率价格，限制认知用户产生的干扰功率不超过其最大可接受的干扰温度阈值，以获得最大收益。另外，不同认知用户之间则根据主用户制定的干扰功率价格，进行非合作博弈。仿真结果表明，该算法不仅减少了主用户与认知用户之间的信息交互，而且可以获得与最优功率分配算法相近的系统性能。文献［15］研究了协作通信中基于Stackelberg 博弈的功率与带宽资源联合分配算法。2014年，文献［16］提出了异构网络中基于能效的低复杂度Stackelberg 博弈功率分配算法，并用拉格朗日对偶分解法对此问题进行了求解。北京邮电大学的都晨辉等［17］则运用Stackelberg 博弈理论研究了基于物理层安全的协作干扰策略，仿真结果表明，与平均功率分配算法相比，该算法具有明显更优的能效。2016年，Yin 等［18］研究了设备到设备（Device to Device，D2D）通信与蜂窝网络共存下的频谱与功率资源联合分配问题。作者将通信基站作为博弈领导者，将D2D 通信对作为博弈跟随者，建立了基于Stackelberg 博弈的频谱与功率联合优化模型，并从数学上严格证明了纳什均衡解的存在性和唯一性。2018年，重庆邮电大学的朱江等［19-20］针对认知无线网络功耗过大的问题，提出了一种基于Stackelberg 博弈的功率控制算法，将主用户作为博弈领导者，次用户作为博弈跟随者，建立主次用户双层博弈模型，并定量分析了次用户对主用户产生的干扰。2019年，王汝言等［21］针对虚拟化无线传感器网络中的资源竞争问题，提出了基于Stackelberg 博弈的虚拟化无线传感器网络资源分配算法，根据不同业务对服务质量的需求，采用分布式迭代算法，获取无线传感器网络的最优价格和虚拟传感网络请求的最优资源需求，并根据纳什均衡进行优化分配。针对无人机网络的抗干扰问题，北京邮电大学的张新宇［22］采用Stackelberg 博弈理论，建立了单一信道和多信道传输的无人机网络模型，并通过分析求得博弈均衡解，从而得到无人机Stackelberg 博弈最优抗干扰策略。

2012年，Song 等［23］首次利用Stackelberg 博弈理论研究了目标与分布式MIMO 雷达之间的电子对抗问题。2015年，空军工程大学的兰星等［24-26］提出了基于Stackelberg 博弈的MIMO雷达信号与目标干扰优化算法，将环境中的杂波因素考虑进博弈模型中，分别获得了强弱杂波环境下目标占优与雷达占优两种Stackelberg 博弈优化策略，可为杂波环境中雷达与目标的博弈提供有用的借鉴。

上述研究成果提出了基于Stackelberg 博弈的认知无线电功率分配思想，在保证认知用户正常通信的条件下，有效降低了认知无线电系统的功耗。同时减少对授权用户的干扰，为后续研究打下了坚实的基础。然而，上述算法却存在如下几个不足之处：（1）虽然文献［10-22］中的算法均采用Stackelberg博弈模型研究无线传感网络功率分配问题，进一步提升了系统能效，然而，已有的研究成果绝大部分是针对认知无线通信中的功率控制问题，如何将Stackelberg 博弈思想应用于有人机/无人机混合集群辐射功率控制的问题，还有待进一步研究；（2）虽然文献［23-26］等将Stackelberg 博弈模型运用于雷达信号处理问题中，分析了杂波背景中MIMO 雷达与目标之间的动态博弈问题，而现代战争对雷达系统射频隐身性能的需求，则要求最小化有人机/无人机混合集群的总辐射功率［27-40］。因此，如何利用Stackelberg 博弈思想优化控制各雷达发射功率，从而在保证雷达系统目标探测性能的条件下，获得更好的射频隐身性能，是有人机/无人机混合集群设计的一个关键问题。另外，至今尚未有基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制的公开报道，这促使我们首次研究这个问题。

本文针对上述存在的问题，研究基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制算法。首先，基于Stackelberg 博弈理论，将有人机作为博弈领导者，将各无人机作为博弈跟随者，各无人机雷达工作于同一频段并以辐射功率为单位支付给有人机相应的费用，而有人机则通过调整单位辐射功率价格，控制各无人机载雷达的总辐射功率，以获得最大收益。同时，各无人机与目标之间根据有人机制定的价格，进行合作博弈功率分配。在此基础上，分别设计综合考虑目标探测性能、无人机辐射功率及敌方截获接收机接收到无人机辐射功率的各博弈参与者效用函数，并建立基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制模型，该优化模型在满足一定目标探测性能和系统辐射功率资源约束的条件下，最小化混合集群的总辐射功率，同时可实现各无人机之间的公平性。最后，将基于Stackelberg博弈的有人机/无人机混合集群辐射功率控制问题转化为经典的最优化问题，采用牛顿迭代法获得各无人机的最优辐射功率迭代公式，并证明纳什议价解的存在性和唯一性。仿真结果验证了该文所提算法的正确性和有效性。

2 系统模型

本文考虑一个由一架有人机和Nt架无人机组成的有人机/无人机混合集群，如图1 所示。为了提高系统的频谱资源利用率，系统中各无人机载雷达工作于同一频段，且由于各无人机难以做到精确同步，从而造成不同雷达间的发射信号互相相关。第i架无人机发射并接收经目标反射的雷达信号以对目标进行探测。同时，无人机可由两条信道接收其他无人机发射的信号：一条是无人机j(j=1，…，Nt)到无人机i接收机的直达波信号，另一条是无人机j发射并经目标反射达到无人机i接收机的回波信号。另外，假设各无人机载雷达的高增益、窄波束定向天线指向目标，从而使得敌方截获接收机只能接收到各无人机发射的直达波信号。由于经目标反射到达截获接收机的雷达信号强度远远小于直达波信号，为方便起见，忽略不计。假设系统中每架无人机可以独立对目标进行探测，并将目标探测数据经数据链路发送至有人机进行信息融合。当目标存在时，无人机i接收到的信号为［40］

图1 有人机/无人机混合集群模型Fig.1 System model for manned/unmanned aerial vehicle hybrid swarm

当目标不存在时，无人机i接收到的信号为

式中，xi=φi ai表示无人机i的发射信号，ai=表示无人机i相对目标的多普勒转向矢量，fD，i为目标相对于无人机i的多普勒频移，N为无人机载雷达驻留时间内接收到的脉冲数目，φi为无人机i的发射信号。χi表示无人机i与目标之间的信道增益，Pi为无人机i的发射功率，为无人机i与无人机j之间的互信道增益，wi表示无人机i接收机处均值为0、方差为σ2的高斯白噪声。假设有且wi～CN(0，σ2IN)，其中表示无人机i-目标-无人机i信道增益的方差表示无人机i-目标-无人机j信道增益的方差表示无人机i-无人机j信道增益的方差，ci，j表示无人机i与无人机j之间的互相关系数，IN为N阶单位矩阵。定义相应信道增益的方差如下

在此，采用广义似然比检验作为无人机载雷达的最优检测器［40］。无人机i的目标检测概率pD，i(δi，γi)和虚警概率pFA，i(δi)分别定义如下

式中，δi为检测门限，γi表示无人机i所获得的SINR值，其定义为

式（5）可以重写为

式中，无人机i接收到的总干扰加噪声可表示为

根据Bacci G 和Panoui A 等［39-40］的分析易知，可由预先设定的检测概率pD，i(δi，γi)和虚警概率pFA，i(δi)求得检测门限δi，随后可得到各无人机所获得的SINR 值γi，并可用其表征目标探测性能。为了得到有人机/无人机混合集群的最优发射功率策略，本文基于Stackelberg 博弈理论来建模和分析系统中各无人机、目标及敌方截获接收机之间的相互影响。在Stackelberg 博弈中，将有人机作为博弈领导者，将各无人机作为博弈跟随者，各无人机载雷达工作于同一频段并以辐射功率为单位支付给有人机相应的费用，而有人机则通过调整单位辐射功率价格，控制无人机产生的射频辐射，以获得最大收益。同时，各无人机与目标之间根据有人机制定的价格，进行合作博弈功率分配，从而最大化无人机集群的综合效用函数。

3 数学建模

本节建立基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制模型，该模型以最小化系统中各无人机载雷达的辐射功率为目标，以给定目标探测性能以及系统辐射功率资源为约束条件，借助Stackelberg 博弈理论对优化模型进行求解，控制各无人机的辐射功率，从而提升有人机/无人机混合集群的射频隐身性能。

3.1 基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制模型

本文将有人机与各无人机之间的动态交互过程建模为Stackelberg 博弈，其中，将有人机作为博弈领导者，将混合集群中各无人机作为博弈跟随者。有人机出售功率资源给集群中各架无人机，并根据敌方截获接收机所接收到的无人机射频辐射，设定单位辐射功率价格，同时将价格发送给各无人机。各无人机根据有人机设定的单位辐射功率价格，通过合作博弈功率分配，最大化无人机集群的综合效用函数。在这一博弈过程中，有人机就单位辐射功率价格与各无人机进行动态交互，直至博弈领导者和博弈跟随者的效用最大化，即达到Stackelberg均衡。

作为Stackelberg 博弈模型中的领导者，在整个射频辐射资源动态分配过程中，有人机通过制定单位辐射功率价格以获取最大收益。因此，考虑截获接收机所接收到无人机射频辐射，设计博弈领导者的效用函数为各无人机支付给有人机的费用［39］，即

因此，作为博弈领导者，有人机的主要目的是根据截获接收机所接收到各无人机的射频辐射，通过调整单位功率价格，最大化其自身效用函数。于是，有人机的效用函数优化模型为

作为Stackelberg 博弈模型中的跟随者，各无人机与目标之间根据有人机制定的价格，进行合作博弈功率分配。在目标探测场景下，各无人机对目标的SINR 值必须大于等于预先设定的目标检测性能SINR阈值。较高的SINR值将获得较好的目标检测性能，然而各无人机将辐射较大的功率，这不仅有损于有人机/无人机混合集群的射频隐身性能，又会使得各无人机之间的干扰问题进一步恶化。由于无人机集群通过对外辐射功率进行目标探测，各无人机需要向有人机支付一定的费用。在此，综合考虑目标探测性能需求、无人机辐射功率资源约束及截获接收机所接收到无人机射频辐射，设计无人机i的效用函数为

在传统的Stackelberg 博弈模型中，博弈跟随者之间通过非合作博弈使得自身的效用最大化，然而，系统的整体效能并不能达到最优。在本文中，博弈跟随者通过合作博弈，采用妥协和讨价还价的方式，提升系统的整体效能。根据纳什定理，合作博弈模型下无人机集群的综合效用函数为

因此，作为博弈跟随者，组网雷达系统的主要目的是在满足一定目标探测性能和无人机集群辐射功率资源约束的条件下，最小化各无人机的总辐射功率。于是，在有人机对各无人机单位辐射功率价格已知的情况下，基于合作博弈的无人机集群分布式功率控制模型为

3.2 无人机辐射功率迭代公式求解

本小节采用牛顿迭代法来推导各无人机的最优发射功率迭代公式。当得到有人机对无人机集群的单位辐射功率价格后，各无人机通过合作博弈来获得最优辐射功率，有人机则根据敌方截获接收机接收到的无人机集群射频辐射，动态调整单位辐射功率价格，以获得自身收益的最大化。

由式（12）可知，基于合作博弈的无人机集群分布式功率控制模型是一个具有多重约束条件的最优化问题。于是，在有人机对各无人机单位辐射功率价格已知的情况下，可采用拉格朗日乘子法对式（12）进行求解。引入拉格朗日乘子和τ，优化模型（12）可以等价转化为

重新整理式（14）后，可得无人机i的辐射功率Pi为：

因此，借助牛顿迭代法，得到无人机i的辐射功率迭代表达式为

式中，

ite为迭代次数索引，另外，采用次梯度方法对拉格朗日乘子和τ(ite)进行更新，从而保证算法的快速收敛性，即

式中，st＞0 为迭代步长；当x＞0 时否则。

3.3 纳什议价解的存在性与唯一性证明

定理1（存在性）：当对于∀i，满足下列两个条件时，本文提出的基于Stackelberg博弈的有人机/无人机混合集群辐射功率控制算法至少有一个纳什议价解存在［38］：

（a）无人机i的辐射功率Pi是欧几里得空间上的非空、闭合、有界的凸集合；

（b）无人机i的效用函数UUAV，i(Pi，P-i，ξi)是连续的拟凹函数。

证明：由式（12）中各无人机的辐射功率策略可以得到，无人机i的辐射功率Pi是欧几里得空间上的非空、闭合、有界的凸集合，故满足第1 个条件。

对效用函数UUAV，i(Pi，P-i，ξi)相对于Pi求二阶偏导数，可得

则效用函数UUAV，i(Pi，P-i，ξi)在策略空间上为连续的凹函数，而凹函数也是拟凹函数。因此，本文所提算法存在纳什议价解，得证。

定理2（唯一性）：本文提出的基于Stackelberg博弈的有人机/无人机混合集群辐射功率控制算法具有唯一的纳什议价解。

证明：根据文献［38］可知，当且仅当下列四个条件满足时，合作博弈模型存在唯一纳什议价解：

（2）存在Pi∈Si使得f(Pi)≥0 满足，其中，Si为博弈方i的策略集合；

（3）博弈方i的效用函数UUAV，i(Pi，P-i，ξi)是连续的拟凹函数；

（4）对于任意的（P(0)≠P(1)），其中，P(k)=且有满足

式中，

由式（12）中各无人机的辐射功率策略可得，条件（1）和（2）满足，而条件（3）已由定理1 证明。下面证明条件（4），由于

综上所述，本文提出的基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制算法具有唯一的纳什议价解，证毕。

3.4 基于Stackelberg 博弈的有人机/无人机混合编队辐射功率迭代算法

在证明本文基于Stackelberg 博弈的有人机/无人机混合编队辐射功率控制算法具有唯一纳什议价解的基础上，根据无人机i的辐射功率迭代表达式（18），给出基于Stackelberg 博弈的有人机/无人机混合编队辐射功率迭代算法流程，如图2 所示。首先，有人机根据截获接收机接收到的无人机集群射频辐射，设定单位辐射功率价格，并将价格发送给各无人机。各无人机根据有人机设定的单位辐射功率价格，通过合作博弈功率分配，经过多次博弈直至综合效用函数最大化。之后，有人机再根据各无人机的辐射功率调整单位功率价格，多次动态博弈后使得各博弈参与者的收益最大化，即达到Stackelberg 均衡。

图2 基于Stackelberg博弈的有人机/无人机混合编队辐射功率迭代算法流程图Fig.2 Flow diagram for transmit power control iterative algorithm in manned/unmanned aerial vehicle hybrid swarm based on Stackelberg game theoretic model

4 仿真结果及分析

4.1 仿真参数设置

为了验证基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制算法的正确性和有效性，本文进行了如下仿真。假设有人机/无人机混合集群由一架有人机和Nt= 8 架无人机组成，且各无人机在目标探测模式下某一时刻的相对位置如表1所示。敌方截获接收机的位置为［20，0］km。为了验证目标相对于集群中各无人机的位置关系对功率分配结果的影响，本文考虑某一时刻两种不同的目标位置。其中，第一种情况下目标位置为［0，0］km，第二种情况下目标位置为［20，-30］km。各无人机间的互干扰系数为ci，j= 0.01(i≠j)。其他系统参数分别设置如下：无人机雷达天线增益Gt=Gr= 30 dB，== -30 dB，雷达信号波长λ=0.03 m；每部无人机载雷达的辐射功率上限为Pi，max=7000 W，混合集群的总辐射功率上限为Ptot=14000 W；漏检概率pD，i(δi，γi)= 0.9973，虚警概率pFA，i(δi)= 10-6，雷达发射脉冲数N=512，检测门限δi=0.0267，由式（4）可计算得到相应的SINR 门限γmin=10 dB；截获接收机接收天线增益GI=0 dB，其接收无人机辐射功率的目标值为Ttar=10-18W，灵敏度为Smin=-97 dBmW；背景噪声功率σ2=10-18W；单位辐射功率价格= 5× 1020(∀i)，误差容限ε=10-16。

表1 各无人机在空间中的相对位置分布Table1 The relative position distribution of each drone in space

4.2 功率控制结果

图3 不同情况下各无人机辐射功率收敛性能Fig.3 Convergence behavior for the transmit power of each unmanned aerial vehicle in different cases

图3 示出了所提算法中各无人机辐射功率随博弈迭代次数变化的曲线，其中，不同情况下各无人机发射功率初值分别设为P（0）=［1500，300，800，4800，500，2400，1800，3600］W，P（0）=［1500，1500，800，800，0，0，2400，2400］W，P（0）=［3000，3000，3000，3000，1000，1000，1000，1000］W，P（0）=［3000，3000，3000，3000，3000，3000，3000，3000］W。从图3 中可以看出，所提算法大致经过3～5 次迭代计算可以达到Stackelberg 均衡点，从而验证了算法的收敛性。为了分析不同因素对无人机功率分配结果的影响，图4 给出了不同情况下的无人机辐射功率分配比，其中，定义第i架无人机的功率分配比为

如图4（b）所示，在第二种目标RCS 模型下，无人机3 和无人机6 发射较大的功率，而其他无人机则发射较小的功率，这是由于无人机3 和无人机6 相对目标视角RCS 较小，需要发射更多的功率以满足其目标探测SINR 性能要求。由图4（c）给出的功率分配结果可以发现，在第二种目标位置下，无人机3 和无人机4 发射较大的功率，说明距离目标较远的无人机发射较大的功率。因此，目标相对于各无人机位置关系及RCS 的不同会产生不同的辐射功率，从而影响有人机/无人机混合集群的射频隐身性能。由图4（d）给出的功率控制结果可以发现，无人机3、无人机4、无人机5 和无人机6 发射较大的功率，而无人机1、无人机2、无人机7 和无人机8 则发射很小的功率，这是由于无人机3、无人机4、无人机5 和无人机6距离目标较远，且相对目标视角RCS 较小。综上所述，基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制算法的无人机载雷达辐射功率与目标相对系统中各无人机的位置关系以及目标相对各无人机视角下的RCS 有关，且距离目标较远、相对目标视角RCS 较小的无人机需要辐射较大的功率，从而满足其设定的目标探测SINR性能要求。

图4 不同情况下无人机发射功率分配比Fig.4 Convergence behavior for the transmit power allocation in different cases

图5 给出了所提算法的各无人机SINR 收敛性能。结果显示，经过3～5 次迭代计算，各无人机所得的SINR 收敛到预先设定的SINR 阈值γmin，从而验证了本文算法可以在控制各无人机载雷达辐射功率的同时，满足给定的目标探测SINR 性能要求，同时实现了各无人机之间的公平性。

为了验证有人机/无人机混合集群辐射功率控制对系统射频隐身性能的影响，图6 给出了不同情况下截获接收机接收到各无人机总辐射功率的收敛性能。从仿真结果可以看出，在不同目标位置和RCS 模型条件下，经过3～5 次左右的迭代计算，采用本文算法所得的截获接收机接收到各无人机总辐射功率收敛到截获接收机灵敏度以下，且低于平均功率分配算法下截获接收机所接收的无人机辐射功率，这是由于后者是在没有利用目标位置及RCS 先验信息的情况下，将系统辐射功率均匀分配给各架无人机，从而具有更差的射频隐身性能。特别地，从图6（c）和图6（d）可以看出，当达到博弈均衡状态后，平均功率分配算法所得的截获接收机接收到各无人机总辐射功率明显高于截获接收机灵敏度，从而使得无人机的射频辐射极易被敌方截获。因此，基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制算法能够在满足一定目标探测性能和系统辐射功率资源约束的条件下，有效降低各无人机的辐射功率，不仅减少了各无人机间的相互干扰，而且有效提升了混合集群的射频隐身性能，实现了系统射频隐身性能与目标探测性能之间的良好折中。

图5 不同情况下各无人机SINR收敛性能Fig.5 Convergence behavior for the achievable SINR of each unmanned aerial vehicle in different cases

5 结论

本文针对有人机/无人机混合集群目标探测时的射频隐身问题，基于Stackelberg 博弈理论，将混合集群中的有人机作为博弈领导者，将各无人机作为博弈跟随者，分别设计了综合考虑目标探测性能、无人机辐射功率及敌方截获接收机接收到无人机辐射功率的各博弈参与者效益函数，并提出了一种基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制模型。该算法可在满足一定目标探测性能和系统辐射功率资源约束的条件下，最小化混合集群的总辐射功率。之后，采用牛顿迭代法获得了各无人机的最优辐射功率迭代公式，并证明了纳什议价解的存在性和唯一性。仿真结果表明，基于Stackelberg 博弈的有人机/无人机混合集群辐射功率控制算法能在满足一定目标探测性能和系统辐射功率资源约束的条件下，有效降低了各无人机的辐射功率，不仅减少了各无人机间的相互干扰，而且有效提升了有人机/无人机混合集群的射频隐身性能，实现了系统射频隐身性能与目标探测性能之间的良好折中。后续研究将在有人机/无人机混合集群射频辐射控制问题中兼顾目标探测范围约束，从而在未来集群协同作战条件下，实现对战场态势的全域感知。

图6 不同情况下截获接收机接收到各无人机总辐射功率收敛性能Fig.6 Convergence behavior for the received power of all unmanned aerial vehicle at intercept receiver in different cases