APP下载

基于随机森林强化学习的干扰智能决策方法研究*

2019-10-09裴绪芳陈学强吕丽刚张双义刘松仪汪西明

通信技术 2019年9期
关键词:时隙信道状态

裴绪芳,陈学强,吕丽刚,张双义,刘松仪,汪西明

(1.中国人民解放军陆军工程大学 通信工程学院,江苏 南京 210000;2.中央军委训练管理部信息中心,北京 100000)

0 引 言

电磁空间是现代战争作战概念和技术的重要拓展,作为未来战争体系的物质基础,电磁频谱的争夺和反争夺将成为战争制胜的关键[1-2]。近年来,人工智能技术的迅猛发展为电子对抗领域开辟了新的思路[3-6]。为提高恶劣电磁环境下的通信对抗能力,急需研究应对敌方干扰攻击的抗干扰技术,以保障己方在恶劣电磁环境中的正常通信。同时,利用干扰攻击影响并破坏敌方的无线通信,也是提升通信对抗能力不可或缺的一部分。在电磁频谱对抗环境下,为了对敌方通信实施有效干扰,引入了智能干扰的概念。

传统的干扰模式主要有定点干扰、扫频干扰、梳状干扰和跟踪干扰等。然而,由于这几类干扰模式相对固定且模式单一,通信用户可以轻易寻找到干扰的变化规律而成功躲避干扰。若要对敌方通信实现精准有效干扰,必须提高干扰算法的智能性。针对现有干扰技术存在的缺点与不足,美国国防高级研究局(DARPA)开展了行为学习自适应电子战(BLADE)、自适应雷达对抗(ARC)和极端射频条件下的通信等研究项目,引入自主学习机制以实现稳健通信,获取战场环境的电磁权。相比于传统的干扰技术,智能干扰所面临的挑战主要有:(1)敌方通信用户通信策略时刻变化,目标识别获取困难,干扰方需要准确获取目标特征,快速生成最佳干扰;(2)干扰方必须具备在线持续学习能力,根据环境的动态变化不断产生后续干扰策略。

近年来,很多学者在智能干扰方面展开了研究[7-10]。文献[7]研究了多天线MIMO无线通信链路的智能干扰攻击问题,提出了一种最优干扰信号设计方案,当收发机采用抗干扰机制时,可以最大限度地干扰MIMO传输。文献[8]研究了干扰伪随机码相位调制引信,提出了一种基于多时延智能欺骗的新型干扰方法,并通过仿真验证了智能干扰算法的有效性。文献[9]提出了一种多臂式结构的干扰策略,能够自适应调整功率,有效地干扰敌方用户通信,且证明了算法可以收敛到最优干扰策略。文献[10]从强化学习的角度出发,设计了一种基于强化学习的智能干扰算法,干扰机通过自主学习,可以实现对敌方通信用户进行跟踪干扰的目的。

受文献[10]的启发,本文提出了一种基于随机森林强化学习的智能干扰算法。干扰方可以通过学习用户的信道切换规律,不断优化干扰策略。与文献[10]不同之处在于:(1)在系统模型层面,文献[10]只考虑干扰单个通信用户,而本文同时干扰两个通信用户;(2)在算法设计层面,文献[10]使用经典Q学习算法,而本文提出了一种基于随机森林强化学习的智能干扰算法;(3)本文所提算法重新定义了系统的效用回报为干扰的占空比,算法收敛速度更快。

文章章节设置如下:第1节给出系统模型,并将干扰策略的决策过程建模为一个MDP过程;第2节针对建立的问题模型,提出了一种基于随机森林强化学习的智能干扰算法;第3节给出了仿真结果,并分析了算法性能;最后,进行总结。

1 系统模型及问题建模

1.1 系统模型

本文考虑无线通信网络中存在1个干扰机、1个认知引擎和2个用户,系统模型如图1所示。系统的全频段频谱被划分为M个带宽相等的信道,信道集表示为每个信道带宽为W。通信用户双方采用扫频、梳状以及随机等信道切换策略进行通信,干扰方通过认知引擎获得信道状态信息,并根据获得的信道状态信息执行强化学习算法来学习用户的信道切换规律,以不断优化自身的干扰策略。假设每个用户在每时隙只选择一个信道进行通信,干扰方同时干扰两个信道。

图1 系统模型

1.2 问题建模

考虑到用户通信信道时刻动态变化,干扰方需要探索用户的通信规律,以对其实施有效干扰。假设系统中存在M个可用信道,为了使描述更直观,以M=7为例进行举例说明。假设用户1以扫频方式通信,用户2以固定序列跳频方式通信,其用户通信信道切换示意图如图2所示。

图2 用户通信信道切换

针对以上提出的问题,本文将干扰信道选择问题建模为MDP过程。MDP一般用一个4元组表示,即,其中S代表状态空间,A代表动作空间,P代表状态转移概率,R代表效用回报。具体定义如下。

设置状态空间s:在n时隙时,干扰方的状态可 表 示 为sn=(cu1,cu2),cu1,cu2∈ {1,2,…,M}, 其 中cu1、cu2通过认知引擎的频谱感知获得,分别代表当前用户1和用户2的通信信道,因此状态空间的大小为

设置动作空间A:在n时隙时,干扰方会选择两个信道进行干扰,干扰的动作可表示为an=(cj1,cj2),cj1,cj2∈ {1,2,…,M},cj1、cj2分 别 表 示 干扰方下一时刻选择干扰的信道,因此动作空间的大小为

设置状态转移概率矩阵P:在n时隙时,表示干扰方从当前状态sn选择动作an到达下一时隙状态sn+1状态的概率。

设置干扰效用R:干扰的目标是探索最优的干扰信道选择策略使得累计成功干扰概率最大。n时隙时,在当前状态sn下,干扰选择动作an,此时获得的回报值为rn。本文中定义的rn为n时隙干扰方的占空比,即用户单个时隙内成功干扰到用户通信所占的比例,具体可表示为:

其中Toverlap为n时隙内用户通信被干扰的时长,Tuser为用户通信时隙长度。

本文中,系统的优化目标为寻找到最优的干扰策略π,最大化系统累积成功干扰概率,即:

根据对动态环境下干扰信道决策问题的分析,将其建模为一个MDP。对于这种未知环境下的决策问题,通常采用强化学习(RL)[3]给予解决。近年来,Q学习作为一种最典型的强化学习方法得到了广泛应用。与文献[10]不同,由于本文的系统模型状态空间较大,传统的Q学习算法无法解决由维数增长带来的状态空间巨大的问题,因此本文提出了一种基于随机森林强化学习的智能干扰算法。

2 基于随机森林强化学习的智能干扰算法

Q学习是一种无模型的在线学习算法,无需知道环境的先验知识,直接通过与环境不断交互获得最优的策略[3]。在执行Q学习算法的过程中,智能体会维护一张Q值表,用于评估不同状态下对应各个动作的优劣程度。Q学习的基本原理如图3所示。

图3 Q学习基本原理

在执行算法的初始时刻,Q值表为全零矩阵,智能体会根据当前状态sn做出一个动作an,并获得相应的回报rn,同时更新Q值表。随着智能体不断地与环境进行交互,Q值表趋于稳定,策略逐渐收敛于最优。

为了使系统长期累积回报最大化,需要将单步回报值进行累加求和从而得到长远回报。对于这种长期任务下的回报值计算,需引入折扣因子γ。为评价在给定状态下采取某个策略好坏,一般通过值函数来反映。因此,在某一策略π下获得的γ折扣长远累积回报可表示为[11]:

智能体在状态sn下采取动作an获得的Q值可表示为:

目标是找到最优策略能够获得最大化折扣回报,根据Bellman方程最优策略下所对应值函数V*(sn)可定义为[11]:

同理可得,对于Q*(sn)函数的Bellman最优方程可定义为:

在本文所提的系统模型中,定义在sn状态下选择动作an,同时获得一个回报值rn,然后更新相应的Q值。由于本文信道状态数较多,所以采用了并行多步更新Q值的方式,即同时对每个状态-动作对的Q值进行更新。Q学习算法的更新公式为:

其中α表示学习速率,具体为α=1/(1+Ta(n)),Ta(n)是干扰的决策动作an在过去n个时隙中执行的次数。γ(0<γ≤1)表示折扣因子,ψ为干扰方在sn+1状态下所有可选策略对应的最大Q值,具体表示为:

在Q学习算法执行过程中,若干扰方每一步都根据当前Q值选择最优策略,即最大Q值对应的动作,很容易陷入局部最优而无法去探索更多的策略。与文献[10]不同的是,本文的决策空间较大,若使用标准的Q学习,会导致算法收敛速度较慢甚至无法收敛的情况。因此,本文提出了一种基于随机森林强化学习的智能干扰算法,即在策略选择过程中,通过增加一个附加值来探索最优策略[5]。它可以平衡在策略选择过程中探索与利用的关系,并且可以大大提高算法的收敛速度。策略更新公式为:

其中CH是预先设定大于零的常数,Wa(n)为偏差因子,具体表示为:

其中Si(an)为选择决策动作an的第i个状态,rn为当前状态sn下的即时回报值。干扰在选择并执行动作a(n)后,在第n+1时隙到达状态

在无线通信系统中,用户以任意模式的信道切换策略进行通信,干扰方执行Q学习算法学习用户的信道切换规律。在执行算法的开始,干扰方的初始状态设置为s0(cu1(0),cu2(0)),其中cu1(0)、cu2(0)分别为用户1和用户2在0-th的通信信道,由干扰方通过认知引擎的频谱感知获得。干扰方在0-th随机选择两个信道cj1(0)、cj2(0)释放干扰信号,并计算相应的回报值。之后的Twbss时间内,干扰方通过认知引擎的频谱感知获得当前时刻用户1和用户2的通信信道cu1(1)、cu2(1),然后更新下一时隙的状态为s1(cu1(1),cu2(1)),同时对Q值表中s0状态下所有动作的Q值进行更新。算法依次迭代,最终在动态变化的环境中收敛到最优的干扰策略。详细的算法流程如下:

初始化:

1.设置仿真时隙数为N(N>0),初始时隙为n=0。

2.设置Q学习参数γ,初始化Q值表Q(s,a)=0。

3.设置初始工作状态为s0=(cu1(0),cu2(0)),其中cu1(0)、cu2(0)由认知引擎的频谱感知获得。干扰方随机从所有信道中选择两个信道作为初始干扰信道cj1(0)、cj2(0)。

循环开始n=0,1,2,…,N-1

4.干扰方在cu1(n)、cu2(n)信道上对用户通信进行干扰,干扰时隙长度为Tjam,根据式(1)计算相应的回报值rn。

5.干扰方通过认知引擎的频谱感知获得用户当前时刻的通信信道cu1(n+1)、cu2(n+1)。

7.计算α=1/(1+Ta(n))。

8.根据式(7)并行更新所有状态-动作对的Q值。

9.n=n+1。

10.更新状态,令sn+1=sn。

循环结束

3 仿真结果

本节对所提基于随机森林强化学习的智能干扰算法在MATLAB上进行仿真验证,并分析其收敛性能。仿真中,假设用户1以扫频方式进行通信,用户2以固定跳频序列方式进行通信,其信道切换规律如表1所示。本文的主要系统参数设置如下:信道数M=16,学习速率α∈(0,1],折扣因子γ=0.8。仿真时隙参数设置如表2所示。

表1 敌方用户信道切换规律

表2 仿真时隙参数设置

图4给出了系统采用不同干扰算法的干扰概率曲线。为了评估所提算法的性能,比较基于随机森林强化学习的智能干扰算法、文献[10]所提智能干扰算法和基于感知的随机信道选择算法的算法性能。图4中干扰概率曲线是由干扰每20个时隙中成功干扰次数所占比例计算所得。通过图4可以发现,与文献[10]所提智能干扰算法以及基于感知的随机信道选择算法相比,本文所提算法干扰性能良好,且较文献[10]中提出的智能干扰算法相比,收敛速度更快。

图5中给出了干扰和用户时频图。图5(a)为在强化学习初期的干扰效果图,开始阶段干扰无法捕捉用户的通信信道,只能通过随机选择的方式不断探索规律,用户被干扰的概率极低。图5(b)为在强化学习末期(系统达到收敛条件)的干扰效果图,图中画圈部分即表明用户被干扰。经过在线学习,干扰找到了用户的通信规律,基本上可以成功对用户通信频点进行干扰。

图4 系统采用不同算法的干扰概率变化曲线

图5 干扰与用户时频图

4 结 语

本文研究了频谱对抗环境中干扰智能决策问题。将干扰方的信道决策过程建模为一个MDP,提出了一种基于随机森林强化学习的智能干扰算法。为了证明所提算法的有效性,本文将所提算法与文献[10]所提智能干扰算法和基于感知的随机信道选择算法进行对比。仿真结果表明,所提算法的收敛速度最快,还可以根据当前的用户通信环境成功学习到最优的干扰策略。本文为大规模无线网络中的智能干扰研究提供了新的思路,未来将研究更加复杂的用户通信策略,使通信对抗双方更具有智能性。

猜你喜欢

时隙信道状态
信号/数据处理数字信道接收机中同时双信道选择与处理方法
基于时分多址的网络时隙资源分配研究
状态联想
基于市场机制的多机场时隙交换放行策略
生命的另一种状态
一种无人机数据链信道选择和功率控制方法
一种基于时隙优化的邻居发现算法研究
一种高速通信系统动态时隙分配设计
坚持是成功前的状态
基于导频的OFDM信道估计技术