基于博弈理论的认知星地网络抗干扰信道选择方法

2023-02-11王梦阳贾录良颜培杰陈亚明

兵器装备工程学报 2023年1期

王梦阳,贾录良,颜培杰,陈亚明

(1.航天工程大学航空信息学院，北京 100000; 2.中国人民解放军66138部队，北京 100000;3.中国人民解放军31664部队，青海格尔木 816000)

1 引言

随着信息技术的快速发展，频谱稀缺和利用率低下的冲突日益凸显，基于认知星地系统之间的动态频谱共享，可以有效提升频谱利用效率，增强星地网络的信息服务能力。文献[1]研究了基于波束成形技术的星地网络的频谱共享问题，其中卫星上行链路用户为主用户，地面下行链路用户为认知用户。文献[2]利用中继链路，实现卫星网络与地面认知用户的频谱共享。

目前关于认知星地网络频谱共享的研究很多，但不少研究内容考虑因素相对不全。文献[3]研究了基于多波束认知卫星网络的功率控制和信道选择问题，认知用户之间不仅相互干扰，而且受到多波束卫星通信系统的同信道干扰影响。文献[4]提出了一种新颖的认知卫星网络设计，地面认知用户根据频谱保护距离的不同，采用不同的频谱接入策略，构造了一个多信道访问博弈和一个功率优化博弈。然而，这些研究忽略了外部恶意干扰的影响。文献[5]研究了动态频谱接入网络中的抗干扰会合问题。文献[6]研究了在类似模拟式攻击条件下主用户的信道选择策略。而在这些研究工作中，没有充分考虑用户间互扰问题。文献[7]研究了功率控制抗干扰问题，并将其建模为一个非零和博弈。文献[8]将高斯衰落信道条件下抗干扰决策问题建模为一个博弈问题，用户和干扰在功率受限条件下追求自身效用最大化。而这些研究工作中都隐含一个假设，即所有用户同时行动，没有考虑用户和干扰之间的分层行为特征。文献[9]研究了复杂干扰条件下信道选择抗干扰决策问题，并将其建模为一个Stackelberg博弈，该博弈能够同时考虑用户和干扰间的竞争以及用户内部间的竞争，分析了该博弈的性质和Stackelberg均衡的存在性，提出了一种基于随机学习理论的分层学习算法。

除此之外，为了从不同角度刻画用户之间的关系，使系统整体效果最优，文献[10]采用图形博弈的方法，研究了小蜂窝网络的负载感知频谱接入问题。文献[11]研究认知无线电网络中分布式信道选择的全局优化问题，提出了2种特殊的局部交互博弈:局部利他博弈和局部拥塞博弈，通过局部信息交互，实现全局最优，但研究内容也忽略了恶意干扰的影响。本文主要工作和创新点如下：

1)研究了认知星地网络中的抗干扰信道选择问题。在地面网络中，认知用户不仅受到用户间的互扰、多波束卫星通信系统的同信道干扰，还受到外部恶意干扰的影响。考虑到认知用户和恶意干扰之间有明显的分层行为，将该抗干扰信道选择问题构造为一个Stackelberg博弈，该博弈同时考虑2个层面的竞争：外部恶意干扰与用户之间的竞争和用户内部间的竞争，并证明了它的上层子博弈是一个精确势博弈，至少具有一个NE解。

2)针对认知用户间互干扰呈现局部影响的特性，提出局部理性的假设，因此把下层子博弈构造为图博弈/局部影响博弈。每个认知用户在充分考虑各方面干扰的前提下，在做决策时需同时考虑自身的效用和邻居用户的效用，通过局部信息交互来实现系统最优，同时证明了该博弈是一个精确势博弈，至少具有一个NE解。

图 1 系统模型图

3)针对认知用户抗干扰信道选择策略，提出了基于局部信息交互的分层学习算法。仿真结果表明，所提分层学习算法收敛性能突出，且与最优响应算法和随机选择算法进行对比，该算法的系统平均吞吐量接近最优NE解。

2 系统模型与问题建模

2.1 系统模型

本文考虑一个多波束卫星通信系统，每个波束服务于一个特定区域[12]。GEO卫星及其固定卫星接收站是主用户，而地面用户是认知用户,每个认知用户都对应于一个由发射机和接收机组成的通信链路。认知用户通过频谱感知或查询本地数据库的方式，来获取主卫星用户的可用空闲频谱信息。本文考虑不存在中心控制器的情况，系统中用户数为N个，授权信道数为M个，认知用户使用机会频谱接入方式，自主地竞争可用空闲信道，即当授权信道空闲时，认知用户接入信道进行数据传输；反之，认知用户不能接入授权信道，必须保持静默。

由于认知用户在空间上任意分布，用户间的互扰呈现局部影响的特性。为了定量描述认知用户之间的局部互扰特性，引入干扰图[13]的概念。认知用户和干扰图上的顶点一一对应，而2个用户之间的距离决定了干扰图的边。具体地，当用户之间的距离小于门限时，顶点之间由一条边相连接。当选择一样的信道时，干扰图上相邻的用户之间会互相干扰。如图2所示，图2中包含5个认知用户，用户间的互干扰呈现局部影响的特性。比如，若5个认知用户选择同一信道，则用户5只会对用户4产生干扰，却不会对用户1,2和3产生干扰。

图2 网络拓扑图

2.2 问题建模

本文假设认知用户能够感知和获得全部信道信息，即所用信道的状态已知。但由于设备条件受限，用户在同一时间只能接入一个信道进行传输。针对认知用户上述特点，本文考虑基于时隙Aloha的传输模型[14]。具体来讲，当认知用户进行通信时，它以概率p接入信道，以1-p概率保持静默。

记认知用户n的可用信道集为An，即：

An=1,2,3,…,An∈M

(1)

假定用户n选择接入信道an∈An，则它能获得的吞吐量为：

(2)

式(2)中：Pn为用户n的邻居用户集合；Jn为外部恶意干扰；Zn为多波束卫星通信系统的同信道干扰。

f(an,ak,aJn,aZn)是指示函数，可表示为：

(3)

那么，系统的网络吞吐量可表示为：

(4)

基于上述分析，本文考虑的优化目标是当系统的吞吐量最大时，所选的最优信道选择组合，即：

E0∶maxU0

(5)

该信道选择问题是组合优化问题，针对这类问题，可以使用穷举方法进行求解，但穷举法计算复杂度很高，而其他一些启发式算法，比如贪心算法[15]等，无法得到系统最优解。因此，需要研究能获得最优解以及复杂度较低的求解方法。

3 抗干扰信道选择博弈

3.1 博弈模型

本文研究认知星地网络场景中，地面认知用户信道选择抗干扰决策问题，认知用户考虑外部恶意干扰，多波束卫星通信系统的同信道干扰和用户间互扰等多方面影响。从干扰效果来说，多波束卫星通信系统的同信道干扰可以归结为“非智能”的外部恶意干扰或者“特殊”的背景噪声。因此，可将该问题构造为一个Stackelberg博弈。Stackelberg博弈也叫分层博弈，是用来建模与分析领导者(leader)和跟随者(follower)的分层决策交互过程，能够较好地建模先后、主从的交互关系，从数学上它可表示为R0={N,J,A,C,un,uj}。其中，N表示认知用户集，J表示外部恶意干扰，A表示认知用户策略集，C表示恶意干扰的策略集，un表示认知用户n的效用函数，uj表示恶意干扰的效用函数。该博弈能够同时考虑2个层面的竞争：外部恶意干扰与认知用户之间的竞争和认知用户内部间的竞争。假设用户为Follower，干扰为Leader，认知用户和干扰各自独立地进行信道选择，并且追求自身效用的最大化。为了分析求解该博弈的Stackelberg均衡，采用经典的Stackelberg博弈分析方法—逆向递推法[16]，即先分析下层子博弈，再分析上层子博弈。

(6)

(7)

则可称该博弈为精确势能博弈，即是任何一个用户单方面偏离所引起的效用函数的变化趋势与势函数的变化趋势是一致的。

3.2 下层子博弈

针对认知用户间互扰呈现局部影响的特性，提出局部理性的假设，将该问题构造为图博弈/局部影响博弈[17]，研究如何分布式求解系统最优解。首先，定义下面动作图。

定义3:动作图Ls=(N,A,θ)由以下几要素构成：

1)N是节点集合，在本节中每个节点代表一个地面认知用户对。

2)对每一个节点n∈N，记它选择的动作为an∈An，其中An是可用行动集，即是策略集。

3)θ是边的集合。如果节点x是y的邻居,那么它们之间由一条连接的边(x,y)∈θ。

根据上面所述，定义图博弈模型如下。

定义4：图博弈由Ψ=(Ls,U)确定，其中：

1)Ls是一个选择图，其中的每一个节点对应一个博弈参与者。

2)U是博弈参与者的效用函数。

综上，可定义下层子博弈为：

R1={N,An,θn,Un}

(8)

式(8)中：N为认知用户数；An为认知用户的可用信道集；θn为认知用户与邻居连接的边的集合；Un为认知用户的效用函数。

本节考虑的博弈模型，突破传统的博弈模型，一般博弈参与者按照利己主义的原则进行决策，只考虑个体最大化回报，而这种决策方式往往难以实现全局最优。本节参考自然界中的局部互利行为[18]，生物个体在做决策时会考虑其邻近的个体。于是，本文提出一种基于局部互利的频谱接入方式，该博弈的效用函数定义为：

U1n(an,aPn,aJn,aZn)=

(9)

当认知用户n进行决策时，它不仅考虑自己，还同时考虑它的邻居用户。以图2为例进行说明，用户1考虑用户1、用户2和用户4的吞吐量之和，用户2 考虑用户2、用户1、用户3和用户4的吞吐量之和，用户3考虑用户3、用户2和用户4 的吞吐量之和，用户4考虑用户4、用户1、用户2、用户3和用户5的吞吐量之和，而用户5考虑用户5和用户4的吞吐量之和。基于上述效用函数，该博弈的优化目标为：

(10)

3.2.1均衡分析

定理1：局部影响博弈R1是一个精确势能博弈，至少有一个纯策略的纳什均衡。

证明：构造下列势能函数：

(11)

式(1)中，dn(an,aPn,aJn,aZn)是认知用户n获得的吞吐量。

(12)

整合上式，令：

(13)

(14)

上式整合后为：

U1n(an,aPn,aJn,aZn)

(15)

式(15)中：W1n表示认知用户n单方面改变信道选择后，认知用户n的效用变化量；W2n表示认知用户n单方面改变信道选择后，认知用户n的邻居用户的效用变化量。

而认知用户n单方面改变信道选择，导致势能函数的变化量为：

(16)

整合上式，令:

(17)

(18)

上式整合后为：

(19)

式(19)中：Y1n表示认知用户n单方面改变信道选择后，邻居用户获得吞吐量；C/D表示集合D从集合C中删除。由于认知用户n只考虑其相邻用户的效用，那么有：

Y2n=0

(20)

又因为

W2n=Y1n

(21)

所以,可知下面的等式成立，即：

U1n(an,aPn,aJn,aZn)

(22)

综上分析可知，任意认知用户n单方面改变信道选择，导致该用户的效用函数变化量和导致的势能函数变化量相同。所以，根据定义2可知：该博弈R1是一个精确势能博弈，至少存在一个纯策略纳什均衡。精确势能博弈有很多特殊的性质，部分如下：

1)任何精确势能博弈至少有一个纯策略NE均衡；

2)能函数的全局最优解或者局部的最优解是一个NE均衡。

基于上述2条性质，定理1证毕。

3.3 上层子博弈

本文将抗干扰信道选择问题构造为Stackelberg博弈，干扰作为领导者，首先动作，先一步选择策略。由于认知用户考虑局部理性，在考虑自身效用的时候，同时还考虑邻居用户的效用。因此，干扰也需要同时考虑对认知用户和其邻居用户的干扰效果。则上层子博弈可以定义为：

R2={J,Cj,Uj}

(23)

式(23)中：J为恶意干扰；Cj为恶意干扰的信道集(策略集)；Uj为恶意干扰的效用函数。由式(4)可知，可定义恶意干扰的效用函数为：

(24)

式(24)中，F(an,aJn)是指示函数。F(an,aJn)可表示为：

(25)

博弈优化目标为：

(26)

3.4 均衡分析

定理2：博弈R2是一个精确势能博弈，至少有一个纯策略的NE均衡。

证明：首先构造下面的势能函数：

(27)

式(27)中，F(an,aJn)为恶意干扰对认知用户n的干扰效益。

(28)

另一方面，认知用户n单方面改变信道选择，导致势能函数产生改变量为：

(29)

∀i∈{NPn},i≠n

(30)

那么，下面等式成立：

(31)

综上，当任意用户单方面改变信道策略，使效用函数的变化量和势能函数变化量相同。所以根据定义2可知，该博弈是一个精确势能博弈，至少存在一个纯策略NE均衡。

4 基于局部信息交互的分层学习算法

为了获得抗干扰信道选择博弈的均衡解，首先了解了试错算法(trial and error，TE)，该算法是完全分布式的，并且在统计意义上收敛到最优的NE，根据文献[19-20]，该算法接受试验的概率表示为：

Γ(Δun)=Γ(un(t+1)-un(t))=

-δ1(un(t+1)-un(t))+δ2δ1>0,

(32)

V(un(t))=-ε1un(t)+ε2ε1>0

(33)

式(23)～(24)中，Γ(x)和V(x)是严格递减函数。通过设置系数δ和ε使得Γ(Δun)和V(un(t))满足下列范围，即：

(34)

但TE算法没有考虑认知用户之间信息交换，为了克服这个局限，本文提出了一种基于局部信息交互的分层学习算法(local information interaction of hierarchical learning algorithm,LIIH)。在LIIH算法中，认知用户和干扰在不同时间尺度上更新策略。干扰的策略更新周期定义为一个时期h，认知用户在每个时隙t进行策略更新，其中，每个时期包含T个时隙。

利用LIIH算法，认知用户n通过与邻居用户进行信息交互学习获得最佳策略。认知用户n在时隙t获得的回报为：

un(t)=U1n(an(t),aPn,aJn,aZn)=

(35)

在上层子博弈中，为获得均衡解，基于Q学习，提出了一种信道选择算法，恶意干扰通过与环境的交互进行策略更新。干扰在时期h获得的回报值为：

uj(h)=U2n(an(t),aJn)=

(36)

基于局部信息交互的分层学习算法步骤如下。

步骤1初始化：设置t=0，h=0，让每个认知用户n∈N从可用信道集An中等概率随机选择一个信道an(0)，获得初始奖励un(0)；

步骤2循环开始h=0,1,2,…；

步骤3在时期h时，恶意干扰根据干扰策略Cj(h)选择干扰信道cjn；

步骤4在每个时期h，认知用户的学习过程如下：

1)在第t个时隙，认知用户根据可用信道策略An(t)选择信道an(t)；

2)认知用户n与邻居用户交互信息，根据公式(35)计算效用un(t)；

3)认知用户根据以下规则更新策略：

Ifun(t + 1)≥un(t),更新概率为：

pn(t+1)=ωG(un(t+1)-un(t))

(37)

Ifun(t + 1)< un(t),更新概率为：

pn(t+1)=1-ωG(un(t+1)-un(t))

(38)

步骤5干扰根据以下公式更新Q值：

(39)

式(39)中：α表示学习速率；uj(h)表示干扰效用。恶意干扰更新策略的规则为：

(40)

式(40)中：qj(h)表示恶意干扰在时期h从干扰信道集Cj(h)选择干扰信道cj的概率；β是调节因子，用来调节学习过程中的探测与利用的折中。

步骤6当迭代次数大于最大迭代次数，算法结束。

5 仿真结果与分析

本节对LIIH算法的性能进行仿真分析。考虑了多波束认知星地网络，地面认知用户以机会频谱接入方式共享卫星通信的下行频谱。认知用户随机分布在一块200 m×250 m的区域，外部恶意干扰能够覆盖全域，用户的发射功率1.5 W，干扰功率为20 W。调节因子设定为β=h，h为时期数，即迭代数。图3给出了认知用户和干扰的位置分布示意图。

图3 无线网络分布图

5.1 算法收敛性

图4给出了认知用户n在一次仿真过程中的收敛曲线。系统用户数为5，可用信道数为4。以认知用户2为例，验证LIIH算法的收敛性。在时隙t=0时，认知用户2等概率从4个信道(信道1、信道被选择的概率在经过约210次迭代后，收敛到1，而信道2、信道3和信道4的信道选择概率均收敛到0。

图4 用户的信道选择概率收敛过程

图5给出了干扰的收敛曲线。条件相同，即系统用户数为5，可用信道数为4。在时期h=0时，干扰等概率随机选择一个信道进行干扰，大约经过15次迭代后，信道3的信道选择概率收敛到1，其余信道的信道选择概率均收敛到0。

图5 干扰的信道选择概率收敛过程

图6给出了参数ω的设置对算法收敛性的影响。当ω较小时，收敛较慢，收敛时间相对较长，但比较稳定；当ω较大时，收敛较快，收敛时间短，但不太稳定。这是由于当ω较大时，偏向于主动探索，偏离当前状态概率大，相对不够稳定；当ω较小时，主动探索意愿小，偏离当前状态概率较小，相对稳定。

图6 参数ω对算法收敛性的影响

5.2 吞吐量性能比较

图7给出了认知用户发射功率对系统性能的影响。干扰功率设置为25 W。当认知用户的传输功率较小时(认知用户功率=1.5 W、2 W、2.5 W)，随着用户数量的增加，系统的平均吞吐量不断增加。当认知用户的传输功率较大时，随着用户数量的增加(认知用户功率=4.5 W、5 W)，系统的平均吞吐量先增加后缓慢减少，这是因为当认知用户的传输功率较大时，当用户数量增加时，用户间的互扰明显，当用户间的互扰效果大于新增用户的吞吐量，系统整体的平均吞吐量会下降，当认知用户数N=8时，系统平均吞吐量最大。

图7 用户发射功率对系统性能的影响

图8给出了干扰发射功率对系统性能的影响。认知用户数N=8。当干扰功率较大(干扰功率=30 W、35 W、40 W和50 W)时，随着认知用户传输功率的增加，系统的平均吞吐量逐渐增加，干扰功率越大，增速较缓。当干扰功率较小(干扰功率=10 W)时，随着认知用户传输功率的增加，系统的平均吞吐量增速较快。但当用户传输功率大于2.5 W时，系统的平均吞吐量下降，原因也是因为用户间互扰影响较大。

图8 干扰功率对系统性能的影响

为了对比抗干扰信道选择性能，评估LIIH算法的吞吐量性能。将LIIH算法与最优响应算法(BR)、TE算法和随机选择算法(RS)等进行比较。为了便于说明，对比方案如下：① 最优NE 解，最差NE 解。假设认知用户之间存在信息交换，用最优响应算法可以收敛到NE 解，执行600 次最优响应算法，其中最优的NE 解和最差的NE 解分别作为最优NE 解和最差NE 解。② 随机选择算法。认知用户在进行信道传输策略选择时，在可用信道集中随机选择信道进行信号传输，然后根据反馈结果计算用户效用和系统吞吐量，而干扰在选择干扰信道时，同样随机选择信道进行干扰并计算干扰效用，偶然性较大。③ TE算法。认知用户之间是非合作的，在进行信道选择时，根据不同的状态进行策略更新。认知用户自身是理性的，只考虑自身效用，不考虑其他用户的效用，通过个体最优实现系统最优。④ LIIH算法。在下层子博弈中，针对认知用户间互扰呈现局部影响的特性，提出局部理性的假设。认知用户利用改进的TE算法进行策略选择，在选择信道时，会考虑邻居用户的信道选择；在进行决策时，不仅考虑自身效用，还考虑邻居用户的效用，通过局部最优实现系统最优。在上层子博弈中，干扰利用基于Q学习的算法进行策略更新。

图9给出了平均吞吐量随可用信道数增加的规律。认知用户数N=8，干扰功率=25 W，用户传输功率=2.5 W。由图9可以看出，随着可用信道数的增加，系统的平均吞吐量逐渐增加。与TE算法和随机选择算法对比而言，LIIH算法性能较为突出，吞吐量性能十分接近最优NE解。当信道数与用户数相等时，系统吞吐量几乎不再明显增加，这是因为用户之间几乎没有竞争，当出现信道质量更好的信道时，吞吐量会增加。

图9 平均吞吐量随可用信道数增加的变化规律

图10给出了平均吞吐量随认知用户数增加的规律。干扰功率=25 W，用户传输功率=2.5 W。由图10可以看出，同样，与TE算法和随机选择算法对比而言，LIIH算法性能较为突出，吞吐量性能十分接近最优NE解。随着认知用户数增加时，系统的平均吞吐量逐渐增多，但增速逐渐变缓，原因是由于用户数目的增加，用户之间的互扰逐渐增加，导致吞吐量性能受到影响。