基于博弈论的协作电视频谱感知与接入方法
2022-12-22丘航丁鲍家旺徐浩东
马 驰,丘航丁,鲍家旺,徐浩东
(福州大学 电气工程与自动化学院,福建 福州 350108)
0 引 言
随着工业物联网(Industrial Internet of Things,IIoT)的快速发展,频谱资源短缺已成为制约IIoT发展的关键瓶颈。频谱稀缺的威胁促使政府采取重要措施,释放多个波段进行动态频谱共享。电视空白频段是第一个被考虑的频谱共享的主要实例。它是指超高频频谱中未使用的电视频谱(TVS)。
认知无线电(Cognitive Radio,CR)可以通过访问主用户(Primary User,PU)拥有的频谱来最大限度地提高频谱利用率。这被认为是解决快速增长的移动流量与频谱短缺之间矛盾的有效途径。频谱感知是CR通过重复利用未充分使用的频谱来解决频谱资源不足的关键技术。频谱感知允许认知物联网(Cognitive Industrial Internet of Things,CIIoT)设备识别未使用的TVS,并避免对PU造成干扰。然而,由于噪声和信道等不确定性,频谱感知的检测性能可能会显著恶化。协作频谱感知(Cooperative Spectrum Sensing,CSS)通过多个次用户(Secondary Users,SUs)合作的全局感知结果来提高衰落和阴影信道的感知性能。协作频谱感知虽然可以很好地提高传感性能,但其能耗很大。
受限于电池容量,物联网设备很难长时间运行。能量采集(Energy Harvesting,EH)允许设备从环境中获取能量,以补充电池,广泛应用于室内和户外多种场景。然而,在CSS中,EH的应用可能会加剧SUs采用不感知的态度。SUs向融合中心(Fusion Center,FC)发送感知结果的过程中,自私的SUs可能发送通过监听其他SUs得到的结果。因此,出现了两种类型的感知SUs:参与频谱感知的贡献用户(CUs)和不参与频谱感知的搭便车用户(FUs)。而FUs选择免费使用他人的感知结果,并可能获得更高的盈利能力。文献[1]中,搭便车用户的问题首先被建模为公共物品博弈。文献[2]中,作者使用演化博弈来优化SU的搭便车行为以获得最大吞吐量。虽然这些论文考虑了SUs的两种感知态度,但没有考虑在SUs分布不均时平衡每个感知联盟之间的性能。
博弈论是分析理性决策者之间竞争最优行为的有效工具。文献[3]中,作者将多信道频谱感知和信道访问问题表述为一个享乐联盟形成博弈(HCFG),其中一个联盟对应于选择感知和访问特定信道的SUs。与传统的博弈论不同,演化博弈论(Evolutionary Game,EG)既不要求玩家完全理性,也不需要完整的信息。EG理论将博弈论分析与动态进化过程分析相结合。文献[4]中,作者将自我驱动车辆节点之间的竞争作为一个EG,并研究了纳什均衡的基本性质和进化稳定性。
与现有的研究不同,在CIIoT中,本文是首次尝试解决自私用户在多信道中CSS的问题,其中SUs可能不愿意参与频谱感知。在两层博弈的基础上,本文引入了一种新的惩罚机制来动态调整用户感知态度和用户感知联盟。该方法可以有效优化各个联盟的吞吐量、检测概率以及误警概率。
1 系统模型
1.1 系统描述
本文规定一个联盟只能感知一个PU信道,则存在M个PUs信道分别被M个联盟感知。其中,PUs可 用M={1,2,…,M}表 示,由N个SUs共 享。PU在一个带宽上用K个子载波(K>N)传输信号。当PU不存在时,每个SU可以使用K个子载波中的任何一个。在每个时间段,每个SU必须感知PU上的一个子载波,以确定PU是否正在传输。
SUs可以自由选择联盟感知态度和感知联盟。在同一感知时隙内,不同的联盟必须感知不同的通道。在联盟中,检测概率最高的SU被认为是联盟首领(CH)。CH在联盟中扮演着FC的角色。假设噪声是一个独立的、同分布的均值和方差为零的随 机 过 程(independent and identically distributed,i.i.d.)。在瑞利衰落环境中,SUi检测PUj信道状态的检测概率和误警概率分别由Pd,i,j和Pf,i,j表示:
式中:Yi,j为SUi感知PUj状态的标准化输出,θj为PUj的检测阈值,m为时间带宽乘积,γ-i,j为接收信号从PU到SU的平均信噪比。需要注意,Γ(.,.)是不完全的伽马函数,而Γ(.)是伽马函数。在检测PU信道时,漏检概率为
1.2 协作频谱感知
在联盟Ω中,由于控制信道传输传感结果为0和1,对应的误差报告概率可以表示为
1.3 时隙结构
假设每个SU一次只能执行一个任务,如图1所示。在能量采集时隙中,采集到的能量将用于感知PU信道和传输数据。传感槽中的感知结果显示了PU是否存在。在传输时隙期间,SUs只有在检测到PU缺失时SU才能通信。在每个时隙中,M个主通道被同步感知。
图1 时隙结构图
CUs遵循图1(a)所示的时间框架结构,可分为三个阶段。与CUs相比,FUs不感知信道,因此有更多的时间来获取能量和传输数据。FUs遵循图1(b)所示的时间框架结构。根据时间结构,可以分别计算出Th期间的收获能量为
式中:PH1表示PU存在的概率,PH0表示PU不存在的概率,RH0表示在PU不存在时SUs的平均吞吐量,RH1表示在PU存在时SUs的平均吞吐量。在动态频谱访问中,要求SUs的操作不应与PUs发生冲突或干扰,而Pd应该非常接近于1。此外,由于PUs对SUs的干扰,通常有式(10)的第二项比第一项要小得多。为了简化公式,如图1(a)所示框架结构中CUs的吞吐量RiC可表示为
式中:Tt1=β(1-α)T。同样,如图1(b)所示框架结构中FUs的吞吐量RiF可表示为
式中:Tt2=(1-α)T。
2 问题定式化
考虑到FUs不对联盟检测概率做出贡献,需对其施加一定的惩罚。惩罚函数可被表示为
式中:λ为定义惩罚严厉性的预定参数,Pd j为PUj的检测概率。对检测性能的满意度的S型函数计算为
式(15)和式(16)的第一项fc(x)是每个SU相对于可实现吞吐量的满意度函数,为简单起见,选择设置fc(x)=μx,即:式中:μ为SUi将吞吐量利润转化为相应的能源利润以统一单位的参数。
所有SUs通过其优化感知态度和感知联盟来最大化其效用。因此,SUi优化问题表述如下:
式中:ai表示为SUi采取的感知态度,ai∈{C,F},bi表示为SUi加入的感知联盟。
3 优化问题求解
针对式(19)的优化问题,本文提出了一个基于双层博弈的协作感知和接入算法(TL-CSAG)。SUs需要在下一个时间段之前选择一个策略组合S=(A,B)。在该博弈中,SUs被视为参与者,Ui被视为SUi的效用函数,SUi的策略用si=(ai(bi),bi)表示。A是在每个联盟中SUs的感知态度的集合,B是SUs选 择 的 感 知 联 盟 集合,B={b1,b2,…,bN},其中bi∈Ω={Ω1,…,ΩM}。表示在每个联盟中SUi对应的感知态度,ai(Ω2),…,ai(ΩM)},ai(Ωj)表示在联盟Ωj中SUi对应的感知态度。
3.1 顶层:感知联盟中的态度策略
由于所有的SUs都是理性和自私的,它们在进化过程中倾向于最大化自己的效用。在每个时间槽,每个SU计算自己的效用,如果SUi的策略si=(C,Ωj)的效用高于SUi从所有态度选择的平均效用获得“C”的概率被采用在下一个时间槽增加。为了描述Ωj中SUi的演化,构造以下微分方程:
式中:ηi为由SUi确定的调整步长。可以推断,如果策略“C”产生的收益高于所有i≻策略的平均收益,那么SUi选择策略“C”的概率将会增加,因为未来策略“C”的选择次数将会增加。下一个时隙中,在Ωj中SUi选择“C”策略时的概率可以计算为
式(21)描述了选择一个感知态度的动态过程。该概率的默认最小值和最大值分别为0和1。需要注意的是,两种不同策略的概率之和为1。因此,只需要推导出“C”或“F”的概率。
3.2 底层:联盟形成策略
为了表示联盟形成的过程,定义一个交换规则如下。
定义1(切换规则):给定SUs的集合N的一 个分区∏={Ω1,…,Ωm,…,ΩM},SUi∈Ωm决定 离开当前联盟Ωm,加入另一个联盟Ωm´∈∏,其中m≠m´,当且仅当Ωm´∪{i}i≻Ωm,其中i≻是SUi的偏好关系。因此,{Ωm,Ωm´}→{Ωm{i},Ωm´∪{i}}。
为了评估SUi对其自身可能的联盟集的偏好,引入偏好关系的概念。
式中:Ω1和Ω2是SUi可能加入的两个可能的联盟。
i■的不对称对应物表示为i≻,当在Ω1i≻Ω2中使用时,意味着SUi严格地更倾向于加入联盟Ω1而不是联盟Ω2。uiΩm是SUi在联盟Ωm中的偏好函数,定义如下:
根据式(22)中SUs的偏好关系,当不考虑SUi的历史集时,可以认为
式(24)中的偏好函数允许SUs选择一个联盟,最大化它们的效用。SUs避免了它之前访问过的任何联盟。这有助于降低享乐主义联盟形成算法的复杂性,因为已经访问过的联盟被排除在SUs的选择集合之外。给定了SUi的偏好函数,通过比较每个联盟的SUi的效用,可以很容易地生成偏好关系。
详细的训练过程在算法1中描述。在初始化阶段,选择每个联盟中检测概率最高的SU作为CH,它始终处于合作态度。然后通过各SUs间的演化,得到各联盟感知态度策略的NE(A*)。在A*的基础上,通过交换规则可以获得感知联盟的NE(Ω*)。
算法1 双层协作频谱感知和接入算法(TLCSAG)
初始化:设置迭代次数t=1,初始感知策略概率P0=50%,初始化参数μ,η;随机初始化SUs的感知态度A={a1,a2,…,aN};将SUs随机且均匀的分配到各个联盟Ω={Ω1,Ω2,…,Ωk}(1≤k≤M)。
输出:A*和Ω*;
步骤1 在联盟Ωk中,计算所有联盟中SUs的检测概率Pd k,将具有最高的检测概率的SU设为联盟首领CHk,设置其感知态度a→“C”步骤2 whileS≠S*且t=1:Max do步骤3t←t+1
从Ω中随机选择两个联盟Ωn和Ωm,在Ωn中选择SUi加入到另外一个联盟Ωm中,{Ωn,Ωm}→{Ωn´,Ωm´}={Ωn{i},Ωm∪{i}};
步骤4SUi在联盟Ωm中以概率Pim(a,t)选择选择感知态度a,a∈{C,F};
步骤5 计算在联盟Ωn中的SUi的效用uin(ai,t),计算在交换后联盟Ωm´中的效用
步骤6SUi根据定义1决定是否加入联盟Ωm;
步骤8 whileA收敛 do
步骤9t←t+1;
步骤10 重复步骤5、步骤6;
步骤11 设置A←A*;
步骤12 重复步骤8,直到得到Ω*;
步骤13 end while步骤14 end while
4 仿真分析与评价
本节对所提方法的性能进行仿真。在已建成的模拟平台上,空间环境建立在1 km×1 km的平面坐标系中。在坐标系中随机分布3个PUs和15个SUs。系统中,帧长时间为T=10 ms,其余部分仿真参数如表1所示。这里使用文献[5]提出的方法作为比较,“Con”表示文献[5]中提出的方法。随机算法通过随机化所有SUs的感知态度和感知联盟。
表1 仿真参数
4.1 可调参数对合作概率的影响
本文研究了λ和SUs的数量对合作概率的影响。如图2所示,结果表明,当λ增加时,合作的概率增加。此外,当SUs的数量趋近于无穷时,合作的概率趋近于零。当CUs的数量达到一定数量时,在联盟中增加更多的SUs并不会增加合作者的数量。
图2 合作概率与SUs的数量的关系
4.2 所提算法对Pd、Pf和吞吐量的影响
图3比较和分析了传统方法[5]、随机算法和TL-CSAG在检测概率和误警概率方面的性能。达到平衡状态后,与随机方法和常规方法相比,三个联盟的平均Pd分别提高了4.3%和2.3%,三个联盟的平均Pf分别降低了205.7%和46.7%。如图4所示,在达到常规方法和TL-CSAG的平衡状态后,三个联盟的平均吞吐量分别提高了40.9%和13.1%。
图3 三种算法的比较
图4 迭代次数和吞吐量之间的关系
5 结 语
本文提出了一种基于两层博弈的协作频谱感知和访问方法。在两层博弈的顶层,SUs是否感知通道的问题被表述为EG。由于自私SUs采用搭便车策略将获得更高的效用,自私SUs的感知态度都将演变成稳定的搭便车策略。本文方法通过引入惩罚机制,有效地提高自私SUs的合作概率,来提高联盟检测概率。在底层,SUs选择哪个信道的问题被表述为一个HCFG。通过加入具有更高效用的联盟来平衡联盟之间的性能。与传统方法相比,该方法能更好地平衡各联盟的资源。仿真结果表明,与传统方法相比,SUs的吞吐量提高了13.1%,联盟的平均检测概率提高了2.3%,联盟的平均误警概率降低了46.7%。