APP下载

基于Q-learning及其改进算法的信道决策方法

2020-05-18马海波俞力周新冯熳

现代信息科技 2020年20期

马海波 俞力 周新 冯熳

摘  要:信道决策是智能抗干扰通信系统的重要组成部分。针对信道决策问题,文章提出一种基于Q-learning及其改進算法的决策方法,在干扰类型及信道模型未知的情况下,通过和信道交互完成信道决策;针对固定模式干扰情况下收敛速度慢的问题,进一步提出一种改进的Q-learning算法。实验结果表明,与传统频率自适应系统相比,通过学习干扰系统的信道切换策略直接切换到未被干扰的信道,可有效减少信道反馈时间,提高工作效率。

关键词:信道决策;智能通信;抗干扰通信

中图分类号:TN925;TN972      文献标识码:A 文章编号:2096-4706(2020)20-0081-04

Channel Selection Strategy Method Based on Q-learning and Its Improved Algorithm

MA Haibo1,YU Li1,ZHOU Xin2,FENG Man2

(1.Purple Mountain Laboratories,Nanjing  211111,China;

2.School of Information Science and Engineering,Southeast University,Nanjing  211096,China)

Abstract:Channel selection strategy (CSS) plays an important role in intelligent anti-jamming communication systems. Aiming at the problem of CSS,this paper proposes a selection strategy method based on Q-learning and its improved algorithm. When the interference type and channel model are unknown,the CSS is completed by interacting with the channel. Aiming at the problem of slow convergence speed under fixed mode interference,an improved Q-learning algorithm is further proposed. The experimental results show that compared with the traditional frequency adaptive system,the channel feedback time can be effectively reduced and the efficiency can be improved by learning the channel switching strategy of the interference system directly switch to the undisturbed channel.

Keywords:channel selection strategy;intelligent communication;anti-jamming communication

0  引  言

面向移动通信5G和6G发展需求,开展具有全覆盖、全频谱、全应用和强安全特征的6G先期研究,突破天地融合大规模无线传输技术,发展融合大数据与人工智能的智能通信技术,在移动通信领域重大基础理论创新和关键核心技术等方面取得突破是紫金山实验室普适通信方向的主要聚焦点。在这样的背景下,作者在从事无线移动通信领域系统架构设计、5G通信物理层研究的相关工作过程中认识到,要实现智能、安全通信,信道决策是重要的环节,也是高频谱利用率和通信质量的关键。所谓信道决策,即,通过频谱感知技术,利用信道反馈信息更新调频频点,以达到规避干扰的目的。然而,传统的信道决策方法在每次发射信号前都要对信道进行检测和反馈,工作效率低下,不能满足实时、高效的抗干扰通信要求[1,2]。

随着人工智能技术的不断进步,机器学习等智能算法在信道决策领域有了大量的研究与应用。其中,强化学习作为一种自学习系统,能够解决分布式参数优化的问题[3-5],因此,Tao Liang团队将强化学习应用于信道决策中,通过引入预分配和基于权重的两种机制来提高学习效率,得到优于传统强化学习的信道选择性能[6];在干扰和信道模型未知的情况下,Liang Xiao等人设计了一种基于Q-learning的功率控制算法,网络中的次级用户通过和无线网络不断交互,进而利用反馈更新功率参数[7]。Youngjune Gwon等通过采用Q-learning算法学习信道质量,得到最佳介入信道以主动躲避干扰信道[8]。Chen Han等人则是对信道和功率联合控制,其中干扰机可以调整干扰策略,获得最大干扰效果,通信方通过在物理层和MAC层选择传输节点和信道,通过跨层Q-learning获得最优信道及功率的组合[9]。综上,目前强化学习算法在智能信道决策领域已有了广泛应用[10-15]。

基于以上描述,本文旨在基于强化学习算法进行干扰信道选择策略,从而实现对干扰的有效回避。然而,在实际的干扰与抗干扰问题中,通信信道的切换都需要一定时间的观察才能够确定对方下一时刻的通信信道,这就错过了最佳的时机。因此,本文在Q-learning算法的基础上,提出一种改进算法,以实现实时、高效的抗干扰通信。

1  信道决策模型

考虑一个典型的抗干扰通信系统,其中包括发射机、干扰机、接收机以及无线信道,系统信道按时隙划分,在通信过程中不考虑干扰类型并且频谱感知结果正确。假设系统的传输频段被均匀划分为M个带宽相等的信道,即,信道的集合可以记为{0,1,2,3,…,M-1}。由于发射机和干扰机的发射功率有限,每次切换信道时默认只选择其中一个信道进行通信或干扰。用户通过频谱感知技术获得信道的状态,进而利用强化学习算法学习干扰方的信道切换模式,通过避开干扰信道,最终实现抗干扰效果。

假设用户和干扰方每隔时间T更换一次信道,用户和干扰的时隙结构如图1所示,用户在τ1时间内进行信道决策并发射信号,τ2时间内用户通过频谱感知获取干扰信号的信道信息,τ3时间内根据所获取的干扰信道信息进行Q表更新。

若当前时刻用户的通信信道为Ci,由用户通过频谱感知得到的干扰信道为Cj,则当前的状态s可记为,Ci,Cj={0,1,2,3,…,M-1}。根据当前状态,用户基于强化学习算法选择下一时刻的传输信道作为动作a,其中a={0,1,2,…,M-1},实施这一动作后用户对信道质量进行评估,并给出当前动作所获得奖励值r,具体如下:

(1)

若干扰未成功,则奖励为1;否则,奖励为-1。

2  基于Q-learning的信道决策算法

在强化学习中,Q-learning是一种离线算法,该算法中存在两个控制策略,一个策略用于选择新的动作,另一个策略用于更新价值函数。简单来说,Q-learning会观察状态s下获得最大奖励的动作,但不一定会执行该动作,仿真参数如表1所示,Q-learning用于信道决策的流程算法如下:

对于环境中所涉及的状态s∈S以及可能采取的动作a∈A,令Q(s,a)=0,π(s,a)=,其中s= ,a=Ck,Ci,Cj,Ck={0,1,2,3,…,M-1};

while

通信方感知信道的状态s=s0;

while

从[0,1]中产生一个随机数rand,若rand<ε,则通信方从动作空间内随机产生一个频点a,否则令a=π(s),ε为探索率;

当通信方执行结束这个动作后,通过频谱感知技术得到信道反馈,给出即时奖励  ,此时信道状态变为s*;

令a*=π(s*),表示在状态s*时策略π给出的动作;

更新值函数,令

Q(s,a)=(1-α)Q(s,a)+α(+γQ(s*,a*));

更新当前策略,令

π(s)=;

更新信道信息,令s=s*;

直到s=send;

输出π

end while

end while

2.1  固定模式干扰

干扰方会按固定的顺序选择下一时刻的干扰信道,其信道切换策略表达式为:

Cj=(Cj+2)mod 10                          (2)

固定模式干扰下系统的仿真结果如图2和图3所示。

由仿真结果可以看出,基于Q-learning的信道决策算法可以通过和环境的交互实现干扰规避。并且,干扰方具备频谱感知能力,其信道切换是以未成功干扰为前提,因此需要较长的时间才可以完成所有状态值的更新,由图3所示的收敛结果也可以看出,大约训练220次达到规避干扰的效果。

2.2  随机模式干扰

即干扰方每个时隙都生成一个随机数rand∈[0,1],再根據rand值选择下一个信道。式(3)给出了随机模式干扰下的信道更新策略,图4为该模式下学习前后的时频图。图5给出了收敛结果,可以看出,学习大约200次左右可以完全规避干扰。

3  改进的Q-learning算法

上述算法虽然均可取得满意的信道决策效果,但收敛速度较慢,在实际中很难应用。针对该问题,本节针对固定模式干扰,提出一种改进的Q-learning算法。假设系统中干扰方仅选择一个信道发射干扰信号,在判断是否干扰成功时,不仅可以对当前的信道进行判断,也可对其他信道进行判断,即根据信道反馈的结果给出的奖励不仅仅是当前信道的奖励,而是所有信道的奖励rt,t={0,1,2,3,…,M-1},然后利用奖励值对Q函数进行更新,有效提高了系统的运行速度。所提出的改进Q-learning算法流程具体算法如下:

对于环境中所涉及的状态s∈S以及可能采取的动作a∈A,令Q(s,a)=0,π(s,a)=,其中s=,a=Ck,Ci,Cj,Ck={0,1,2,3,…,M-1};

while

通信方感知信道的状态s=s0;

while

从[0,1]中产生一个随机数rand,若rand<ε,则通信方从动作空间内随机产生一个频点a,否则令a=π(s);

当通信方执行结束这个动作后,通过频谱感知技术得到干扰频点Cj,此时信道状态变为s*;

令a*=π(s*),表示在状态s*时策略π给出的动作;

for t=0:m-1

if Ct=Cj

rt=-1

else rt=1

s′=

更新值函数,令

Q(s,a)=(1-α)Q(s,a)+α(rt+γQ(s′,a*));

end if

end for

更新当前策略,令

π(s)=;

更新信道信息,令s=s*;

直到s=send;

输出π;

end while

end while

图6给出了Q-learning与改进Q-learning算法的收敛曲线对比,可以看出,改进后的Q-learning算法大约仅迭代50次即可收敛,比Q-learning算法的收敛速度提高了4倍左右。

4  结  论

本文重点研究了智能抗干扰通信系统中的信道决策算法,通过将强化学习引入到信道决策中,采用Q-learning算法与无线信道进行交互,获取信道信息以完成信道决策。针对固定模式干扰和随机模式干扰这两种情况进行仿真验证,结果有力验证了Q-learning算法在信道决策中的有效性。为解决Q-learning算法收敛速度较慢的问题,针对固定模式干扰,本文进一步提出一种改进的Q-learning算法,仿真结果表明,所提出的改进算法可大大提高收敛速度,并具有良好的有效性和可靠性,能够保证高质量通信系统的实现。

参考文献:

[1] 赵星宇,丁世飞.深度强化学习研究综述 [J].计算机科学,2018,45(7):1-6.

[2] 薛蒙蒙.抗干扰通信中的认知引擎关键技术研究 [D].天津:天津大学,2016.

[3] 郭宪,方勇纯.深入浅出强化学习:原理入门 [M].北京:电子工业出版社,2018.

[4] 赵彪,李鸥,栾红志.Q学习算法在机会频谱接入信道选择中的应用 [J].信号处理,2014,30(3):298-305.

[5] 衡玉龙.认知无线电网络频谱共享性能分析与信道选择策略研究 [D].重庆:重庆大学,2013.

[6] JIANG T,GRACE D,MITCHELL P D. Efficient exploration in reinforcement learning-based cognitive radio spectrum sharing [J]. IET Communications,2011,5(10):1309-1317.

[7] XIAO L,LI Y,LIU J L,et al. Power control with reinforcement learning in cooperative cognitive radio networks against jamming [J]. The Journal of Supercomputing,2015,71(9):3237-3257.

[8] GWON Y J,DASTANGOO S,FOSSA C,et al. Competing Mobile Network Game:Embracing antijamming and jamming strategies with reinforcement learning[C]// 2013 IEEE Conference on Communications and Network Security (CNS). IEEE,2014.

[9] HAN C,NIU Y T. Cross-Layer Anti-Jamming Scheme:A Hierarchical Learning Approach [J]. IEEE Access,2018(6):34874-34883.

[10] 杨鸿杰,张君毅.基于强化学习的智能干扰算法研究 [J].电子测量技术,2018,41(20):49-54.

[11] 刘召.基于强化学习的卫星通信资源分配算法研究 [D].西安:西安电子科技大学,2019.

[12] 刘猛.基于深度学习的抗干扰决策技术研究 [D].北京:中国电子科技集团公司电子科学研究院,2019.

[13] 朱芮,马永涛,南亚飞,等.融合改进强化学习的认知无线电抗干扰决策算法 [J].计算机科学与探索,2019,13(4):693-701.

[14] XIAO L,JIANG D H,WAN X Y,et al. Anti-Jamming Underwater Transmission With Mobility and Learning [J]. IEEE Communications Letters,2018,22(3):542-545.

[15] JIA L L,YAO F Q,SUN Y M,et al. Bayesian Stackelberg Game for Antijamming Transmission With Incomplete Information [J]. IEEE Communications Letters,2016,20(10):1991-1994.

作者簡介:马海波(1976—),男,汉族,黑龙江大庆人,高级项目经理,工程师,硕士,研究方向:5G通信系统架构。