基于合作博弈的无人机协同抵近侦察研究
2021-12-28姜家成
姜家成,束 坤,李 迪
(中国船舶重工集团公司第七二三研究所,江苏 扬州 225101)
0 引 言
在当今电磁频谱战当中,无人机集群作战技术愈发炙手可热,基于无人机集群的电子侦察、定位与干扰已经成为国内外学者研究的热点问题之一。无人机之间通过侦察信息的交流与反馈,实现了集群行为协同,在不确定性环境下共同执行特定任务。而无人系统集群想要形成作战能力,就必须具备自组织任务分配这一关键技术。
博弈论法是一种典型的分布式任务分配算法,属于多 Agent 理论。在过去的几十年中,博弈论在国内外发展迅速,既有对传统非合作博弈的突破,更有新的理论分支,诸如合作博弈和模糊合作博弈等的飞速发展,为合作博弈论在战争和军事领域的应用奠定了理论基础[1-2]。因此,提出并建立无人机协同侦察合作博弈模型,提升集群系统的整体战术性能。
1 无人机集群侦察性能评估体系
1.1 无人机侦察性能
侦察无人机主要用于执行侦察任务,侦察无人机的主要任务设备是电子侦察系统、合成孔径雷达以及CCD相机等,它们的性能对无人机侦察性能的影响尤为重要。此外,本文假定各无人机均携带其中一种侦察设备,因此,无人机群的协同侦察性能指数(β)可由电子侦察系统(ERS)侦察性能指数(βERS)、合成孔径雷达侦察性能指数(βSAR)和CCD相机侦察性能指数(βCCD)求得,αi(i=1,2,3)分别代表参与协同的各型号侦察载荷在电子对抗环境下的性能转化率,具体如下:
∑β=α1βERS+α2βSAR+α3βCCD
(1)
(2)
式中:KERS为ERS的体制衡量系数,由无人侦察机上配备的远程敌我识别系统决定,本文中取值为1。
同样地,SAR侦察性能指数和CCD侦察性能指数可表达为以下方程式:
(3)
(4)
对于依靠反射光进行侦察的CCD相机,其对比度为C0=(LT-LE)/LE,其中LT为目标的亮度,LE为环境的亮度。根据以上分析研究设定无人机侦察载荷各项性能如表1所示。
表1 无人机所携各侦察载荷的侦察性能
1.2 侦察情报有效性
侦察情报有效性指标主要和侦察方对目标的侦察时间、侦察载荷的工作性能等有关[4]。无人机对目标的侦察时间将在一定程度上影响最终的侦察收益,一般来讲,越是高价值目标,所需花费的侦察时长就越久,具体如下式所示:
G(t)=G0+G1(1-e-βt)
(5)
式中:G0表示协同侦察前,我方对该目标的已知信息,0≤G0<1;G1表示协同侦察前,我方对该目标的未知信息,同时满足G0+G1=1;β表示无人机所携带的侦察载荷对待搜索区或敌方可疑目标进行侦察的性能指数,性能指数的大小由无人机携带的电子战装备的自身性能和待侦察任务区域或目标的特征属性而定。
不同侦察性能指数的侦察收益曲线如图1所示,在此假设G0=0。
图1 不同侦察能力指数下的侦察收益曲线
1.3 侦察情报时效性
侦察情报往往能够为我方掌握敌军的部署和行动提供依据,使我方能够采取先发制人的行动或者做出及时有效的反制措施。在追求快速、精准、高效的现代化战争中,情报的时效性愈发被情报部门所重视。根据侦察情报的性质与特点,多数侦察情报的实用价值呈现出随时间的延长而不断衰减的特性。在数学模型上侦察情报的时效性可以表达为以下微分方程:
(6)
式中:λ>0,称为指数衰减常数。
通过解微分方程可得:
N(t)=N0e-λt
(7)
式中:N(t)为侦察情报在时间t时的实用价值;N0为完整情报价值;衰减常数λ根据实际情况进行调整。
情报的价值随时间变化如图2所示,假设N0=1,当衰减常数λ≈0.138 6时,侦察情报的价值在5 min减半,在第30 min左右价值趋近于0。
图2 侦察情报时效性的指数衰减曲线
2 基于合作博弈的任务分配策略
2.1 夏普利(Shapley)值法
Shapley值是博弈的边际向量的平均值,对应于一个n人博弈中的参与者的n!个可能的排序,需要确定n!个向量,因而Shapley值相比其他解概念能更好体现出参与合作的各方对联盟的贡献度,此外Shapley值在数学计算上也有着良好的可操作性,因此它被普遍认为是最有用的合作博弈解概念[5]。Shapley值的具体定义如下。
定义1:对一个博弈v∈GN,Shapley值是博弈的边际向量的平均值,记作Φ(v),即:
(8)
由式(8)可以看到,Shapley值可以用概率来解释。假定从含有π(N)的元素的容器中抽一个排列σ(具有等可能性1/n!)。让参与者按照排列σ一个接一个地进入同一个房间,并且给每个参与者一个由他自己产生的边际贡献。按照这个随机过程,对每个i∈N,Φ(v)的第i个坐标Φi(v)就是第i个参与者的期望支付。
下面,在不至于混淆v是博弈的情况下,常用mσ代替mσ(v)。
因此,由定义2可将式(8)重写为:
(9)
式中:求和符号里面项的形式是v(S∪{i})-v(S),其中S是不包含i的N的子集。
注意到Pσ(i)=S恰有S!(n-1-s)!个排序。第1个因子S!对应于S的排序数,第2个因子(n-1-s)!对应于N(S∪{i})的排序数。由此,可以重写式(8)为:
Φi(v)=
(10)
通过观察式(10),易知在这个随机过程中,第i个参与者在博弈v∈GN中的期望支付就是Shapley值。
2.2 基于Shapley值的合作博弈分配策略
合作博弈的前提就是无人机群为达到侦察收益最大化目的而进行的一项联合行动,模型的参与人就是各无人侦察机。为了举例计算,把大联盟N设置为1个由4架次无人机组成的小型编队,分别为无人机U1、U2、U3和U4。由参与人无人机结成联盟的集结S如下:
{U1},{U2},{U3},{U4},{U1U2},{U1U3},{U1U4},{U2U3},{U2U4},{U3U4},{U1U2U3},{U1U2U4},{U1U3U4},{U2U3U4},{U1U2U3U4}
通常合作联盟的形成能够保证联盟双方的利益都有所增加,或者即使不能増加所有利益者的利益,也至少能够提高一方利益而同时不损害另一方利益[6-7]。因此可以把协同侦察的过程看作是无人机群通过合作进行侦察情报利益分配的过程。因此,各种可能联盟S的收益V如表2所示。
表2 各种可能联盟的收益
2.3 侦察收益分配
根据Shapley值计算公式能够得到无人机集群协同侦察的合作博弈分配方案。
当双机合作时,无人机U1和U2分得收益分别为:
φ1=(a1+a5-a2)/2
(11)
φ2=(a2+a5-a1)/2
(12)
当三机合作时,无人机U1、U2和U3分得收益分别为:
φ1=(a1+a11-a8)/3+(a5+a6-a2-a3)/6
(13)
φ2=(a2+a11-a6)/3+(a5+a8-a1-a3)/6
(14)
φ3=(a3+a11-a5)/3+(a6+a8-a1-a2)/6
(15)
当四机合作时,无人机U1、U2、U3和U4分得收益分别为:
φ1=(a1+a15-a14)/4+(a5+a6+a7+a11+a12+a13-a2-a3-a4-a8-a9-a10)/12
(16)
φ2=(a2+a15-a13)/4+(a5+a8+a9+a11+a12+a14-a1-a3-a4-a6-a7-a10)/12
(17)
φ3=(a3+a15-a12)/4+(a6+a8+a10+a11+a13+a14-a1-a2-a4-a5-a7-a9)/12
(18)
φ4=(a4+a15-a11)/4+(a7+a9+a10+a12+a13+a14-a1-a2-a3-a5-a6-a8)/12
(19)
3 算例分析
合作博弈理论重视公平、公正并结合效益,重点关注联盟即参与者集合,协调他们的行动并且最大化联盟的收益,正是解决无人机集群合作行为的不错方式,促进无人机群在侦察收益最大化条件下达成侦察共识。
由4架无人侦察机U1U2U3U4组成的侦察小联盟通过广域搜索发现一敌方地面目标R,通过目标信号匹配识别,判定任务目标的威胁程度与侦察价值,进而开始进行协同抵近侦察。无人侦察机与任务目标的各项参数如表3和4所示。
表3 敌方地面目标的威胁程度和价值
表4 我方无人机的各项参数
在电子对抗环境下,ERS和SAR的侦察效果易受影响,而对CCD的影响可以忽略不计。文中假设敌方地面雷达目标主要为导弹制导雷达、搜索指示雷达和预警警戒雷达,他们都有各自独特的工作特性。预警警戒雷达通常保持在开机工作状态,其侦察距离较远,呈现出低脉冲重频,工作在低频段和宽脉冲宽度等特点,因此对于ERS、SAR的侦察效果影响较小。而搜索指示雷达与制导雷达通常会保持静默状态,当预警警戒雷达发现可疑目标后,搜索指示雷达才会开机对目标进行识别、定位与跟踪,对于高威胁度的目标,才启用制导雷达对目标进行攻击。此外,用于指挥引导的雷达通常会呈现出高脉冲重频、参差脉冲周期、窄脉冲宽度,高频段、随机天线扫描周期等特点,因此对于ERS、SAR的侦察效果影响较大。由于目标特点与性能的不同,无人机对不同目标的侦察能力也就有所区别,设定无人机侦察载荷对各型目标的侦察能力指数如表5所示。
表5 各型雷达对无人机不同侦察载荷侦察效果的影响
首先,无人侦察机需要确定敌方地面目标的种类与型号,从而判定其威胁等级与目标价值,在这里假设无人机U1通过搜索发现的敌方地面目标R为搜索指示雷达。对于单个目标,在军事上通常要求侦察方对于侦察情报的有效性指标达到90%以上。
举例来说,若无人机U1单独进行抵近侦察,侦察能力β=0.231 3,根据侦察情报有效性要求,至少需要9.955 0 min,而根据侦察情报时效性指标,情报在9.955 0 min时时效性将衰减为原来的25.16%。这里假设敌方搜索指示雷达的目标价值为600,那么无人机U1单独进行抵近侦察的侦察收益就是37.993。
同理可计算出由无人机U1、U2、U3和U4结成各种联盟S的侦察收益值,具体数据如表6所示。
表6 各种可能联盟的收益
当U1、U2合作时,U1收益51.448,U2收益35.279;当U1、U2、U3合作时,U1收益54.887,U2收益38.847,U3收益27.459;当U1、U2、U3、U4合作时,U1收益49.989,U2收益41.948,U3收益25.870,U4收益2.088。
通过数据分析可知:双机和三机合作时,分配结果满足超可加性、个体合理性和有效性,同时合作博弈效益也满足协同学中“1+1>2”的协同效应;而四机合作时,不仅U1和U3的收益对比三机协同时有所降低,而且四机联盟总收益也低于U1、U2和U3组成的三机联盟,因此U4会选择不参与合作。同时根据侦察总收益最大化原则,U1将与U2和U3进行合作,三机协同对敌方地面目标R进行抵近侦察。
4 结束语
通过计算分析表明,无人机性能(航速和搜索半径)、目标威胁程度和价值、侦察情报有效性和时效性指标均会在一定程度上影响合作联盟的形成与维持,同时改变合作联盟的收益分配情况。无人机集群在执行协同侦察任务时必须面对任务分配以及资源调度的问题,而基于合作博弈理论的多无人机协同合作机制兼顾公平与效率,能够促进无人机群在侦察收益最大化条件下达成侦察共识。