APP下载

基于深度强化学习的智能干扰方法研究

2022-07-13夏成龙刘辰烨

电声技术 2022年5期
关键词:干扰机频谱决策

夏成龙,李 祥,刘辰烨,杨 旸

(中国人民解放军陆军工程大学 通信工程学院,江苏 南京 210007)

0 引言

在未来的信息化战场中,情报传递、战场指挥、武器控制等绝大部分信息交互都通过数字化信息网络实现。可以说,信息通信水平已经成为影响现代战争成败的最重要因素之一。如何取得信息化战场中的“制信息权”,已经成为军事通信领域的研究热点。机动性、灵活性是衡量作战能力的重要标准,因此,便于“动中通”的无线通信手段和设备成为战场信息传输的重要组成部分。也正是因为无线通信的重要地位,无线通信干扰和抗干扰方之间的“矛盾之争”日趋激烈。此外,人工智能技术的出现和日渐完善,大大提高了通信抗干扰方的智能化水平。因此,基于人工智能方法开展智能干扰技术研究,已成为当务之急。

本文研究基于深度强化学习的智能干扰决策方法,基于Python 环境仿真分析了算法的有效性,得到了较好的干扰效果,能够为智能化干扰设备的研制和实用化提供良好的理论验证。

1 深度强化学习概述

1.1 深度学习

深度学习(Deep Learning,DL)的概念最先起源于人工神经网络的研究。直到2006 年,HINTON 在论文中详细分析讲解了DL 体系机构,掀起了深度学习研究的热潮[1]。DL 的基本原理是通过学习一种分层的非线性网络结构,计算样本数据的分层特征或表示因子,其中的高层特征或因子由低层得到,在此基础上得到样本数据的内在规律和表示层次,实现了用复杂函数逼近的目的[2]。通过学习过程得到的规律和复杂函数,对文字、声音、图像等常用数据的解释起到了很大的作用。DL 是一种复杂的机器学习算法,其最终目标是让机器能够像人一样具有分析各种数据的能力[3]。因此,DL 更加强调对事物的感知和表达。在诸多技术领域中,DL 在语音和图像识别方面取得了很好的研究和应用成果。

DL 能使机器模仿复杂的人类思考活动,从而解决很多经典算法束手无策的难题,使人工智能的相关技术取得了重大突破。作为机器学习领域最重要的研究热点之一,DL 已经在搜索技术、语音识别、数据挖掘、图像分析、机器翻译、推荐及个性化技术等众多相关领域都取得了举世瞩目的成果。常见的深度学习模型主要有卷积神经网络(Convolutional Neural NetWork,CNN)[4]、深度信念网络(Deep Belief Network,DBN)[3]、循环神经网络(Recurrent Neural Network,RNN)[3]等。

1.2 强化学习

强化学习(Reinforcement Learning,RL)是机器学习的一个重要分支,是多学科、多领域交叉的产物。它的本质是解决未知环境中的决策问题。强化学习来源于动物训练中经常采用的“尝试与奖励”机制,通过与环境的交互取得奖励(reword)来进行学习,并进一步利用环境的反馈实现决策的优化输出。

RL 的基本实现框架如图1 所示,是智能体(Agent)通过采取行动(Action)改变自己的状态(State),从而与环境(Surrounding)发生交互并获得奖励(Reward)的循环过程。该过程是一个试探与评价的过程,其主要原理是通过比较Agent 在经过一次次不同的行动后从环境中获得的累计奖赏值,找到奖励值最大的行动方式,以做出使目标最优的决策。因此,RL 方法更加侧重于选取解决问题的最优策略。

图1 强化学习的基本实现框架

由于RL 在学习过程中不需要提供额外信息,因此其在求解未知动态环境中的最优策略方面具有很好的应用价值,已经广泛应用于仿真模拟、游戏博弈、金融经济、优化与调度、机器人控制等众多需要选择决策的领域。而在通信系统的智能资源决策等问题中,RL 也可以达到很好的决策效果。

1.3 深度强化学习

伴随着科技进步和人类社会的飞速发展,越来越多复杂的现实任务场景出现了。它们大多拥有庞大杂乱的样本数据,需要利用DL 来获取内在规律和抽象表征,并以此为依据进行RL,从而寻求解决问题的最佳策略。考虑到上述应用场景,将具有感知优势的DL 和具有决策优势的RL 相结合,深度强化学习(Deep Reinforcement Learning,DRL)应运而生,而且迅速成为人工智能领域新的研究热点。

DRL 是将DL 的感知能力和RL 的决策能力相结合的一种全新算法。输入的文本、音频、图像、视频等数据量巨大的复杂数据,通过DRL 的处理,可以在无需人为干预的情况下,直接输出最优决策结果。这种从感知到动作的端到端的学习,是一种更接近人类思维方式的人工智能学习方法,具有更强的通用性。DRL 的原理框架如图2 所示。其学习过程可以描述如下:

图2 深度强化学习原理框架图

(1)从某个时刻开始,Agent 与环境交互得到环境的观察,利用DL 方法来感知观察环境和系统状态,从而得到环境和系统状态的具体特征表示;

(2)基于DL 所得到的特征信息,RL 根据信息做出相应的动作决策;

(3)当动作作用于环境后,环境会对此动作做出反应,DL 从环境中获得新的观察,RL 从环境中获得反馈奖赏,通过不断循环以上过程,输出可以实现目标的最优策略。

近年来,由于巨大的应用前景和强大的适用性,DRL 一直是人工智能领域的研究热点,许多新的算法不断提出。很多学者将深度学习与强化学习相结合并应用到实际中[5-7],算是早期的DRL 雏形,但都不够成熟,存在较多缺陷。

2012 年,深度学习在ImageNet 比赛大获全胜。DeepMind 团队想到把深度网络与强化学习结合起来,基于强化学习领域很早就出现的值函数逼近(function approximation),通过深度神经网络这一神奇的工具,开创性地提出了深度Q 网络(Deep Q-Network,DQN),巧妙地解决了状态维数爆炸的问题。2013 年,DeepMind 团队利用设计的DQN算法训练计算机进行Atari 游戏,成功使计算机在3款游戏上超过了人类的顶尖水平[8]。可以说,DQN是深度强化学习的开篇之作,也是最重要、最基础的算法之一。DQN 被提出以后,深度强化学习开始进入广泛应用的阶段。本文研究的智能干扰算法也是基于DQN 实现。

DQN 的模型结构如图3 所示。DQN 在训练过程中使用经验回放机制(experience replay)。而且其在训练时,通常要求样本数据之间是相互独立的。DQN 还单独使用另一个网络来产生目标Q 值。这些做法都可以大大降低样本之间的关联性,从而提高算法的稳定性。

图3 DQN 的模型结构

实验表明,DQN 在解决诸如Atari 2600 游戏等类真实环境的复杂问题时,表现出不逊色甚至超过人类顶尖玩家的竞技水平,充分说明DQN 方法具有很强的适应性和通用性。

2 基于深度强化学习的干扰算法

2.1 模型建立

本文基于深度强化学习中的深度Q 网络算法(DQN),建立通信智能干扰系统模型,然后将感知到的频谱数据作为状态,更好地描述动态条件下频谱环境特征,构建基于深度强化学习的决策网络,运用此网络对频谱信息进行处理,实现干扰策略在线学习与更新,并研究了基于深度强化学习的干扰方法。

智能干扰系统的组成如图4 所示。系统共享多个可用信道。通信智能干扰子系统包括一台干扰机和一台频谱感知设备,无线通信子系统由一对通信用户(发送机和接收机)组成。感知设备负责频谱的实时感知和获取,干扰机负责干扰决策和发射干扰。通信系统具备多种通信模式,主要包括定频、自适应慢跳频及快速跳频通信。频谱感知机会将感知到的频谱数据传送给智能干扰机,智能干扰机会根据监测到的频谱数据选择干扰方式,最大化干扰效果。

图4 智能干扰模型

本文着重讨论感知机感知到的环境频谱数据对干扰机决策的影响。为了便于计算和仿真,对感知机的感知效率和干扰机的功率等问题均进行理想化处理,即感知机能及时、准确地感知通信频点,且干扰频率与通信频率一致即意味着干扰成功。

算法实现智能干扰的主要流程为:首先将干扰过程建模成一个MDP 模型,利用深度学习的强大的特征提取分析能力对动态、复杂的频谱环境进行抽象提取,其次通过强化学习的不断迭代和持续学习能力,不断优化长远回报值,最终做出最佳决策。即干扰机通过接收到频谱感知设备的频谱图,进一步决策出智能干扰策略。

首先构建MDP 模型。马尔科夫过程一般由四元组(S,A,P,R)所描述,其中S为状态集,A为动作集,P为转移概率,R为奖励值集。频谱感知设备不断感知频谱数据并进行存储。a代表干扰机在经过深度强化学习决策后作出的动作,a∈A;P={p(Sk+1)|Sk,ak}代表在状态Sk下,干扰机做出干扰动作ak后转移到状态Sk+1的概率p∈P;r代表干扰机做出干扰动作后获得的奖励值r∈R。

依据以上模型,设奖励函数Rj(干扰回报值)为:

式中:fu为干扰频谱,fj为通信频谱。当干扰频谱和通信频谱重合,即fu=fj,表示干扰成功,则获得回报值1;否则,fu≠fj表示干扰失败,则回报值为0。干扰机的优化目标是使累积的奖励值最大,即:

式中:γ代表折扣因子,Rt代表在t时刻的奖励值。St代表时间t之前的所有频谱信息。文献[9]的研究证明状态集S可以通过频谱强度热力学图(即频谱的热力学颜色)来表示,并以此来确定干扰策略。因此在动态环境中将频谱热力学图作为状态集。

输入状态为频谱感知设备感知到用户系统的频谱瀑布图,输出的动作为干扰决策信道。在神经网络的设计上,利用卷积层提取频谱信息,再用全连接层分析频谱信息。神经网络结构如图5 所示。

图5 神经网络结构

整体网络结构由两个卷积层和两个完全连接层构成。卷积神经网络通过卷积和特征映射对图像特征进行提取和降维处理,得到特征数据;之后全连接层通过相连的点将提出到的特征进行综合处理。数据处理后输出估计的Q 函数,最后根据Q函数输出决策即将要执行的干扰动作。

2.2 算法设计

本文所设计的基于深度强化学习的智能干扰算法流程如以下伪代码所示。

基于深度强化学习的智能干扰算法

初始化

(1)设定初始环境S1;

(2)经验回放库M≠∅,迭代次数t=0,初始化网络参数θ为随机值;

Whilet<T循环

(1)通过ε-greedy算法选择干扰动作a;

(2)执行a,并根据公式计算奖励值;

(3)感知St+1,并把et=(St,at,Rt,St+1)存储进回放库M中;

(4)If sizeof(M)>N

从M中随机选取e按照梯度下降法更新网络参数;

计算反馈目标值ηt=r(a)+λmaxQ(S',a';θt+1);

End if

结束循环

3 仿真结果与分析

本文利用设计出的算法,在Python 下给出仿真参数的设置和仿真结果。考虑通信目标未跳频通信模式进行干扰仿真,通信方在频段内以动态跳频的方式每20 跳重复一次的跳频规律,通信带宽为20 MHz,跳频周期为10 ms。图6 为算法仿真所获得的频谱瀑布图。图6 中,灰色方块为通信用户的跳频频点,白色方块为干扰机发送的干扰频点。从图6(a)可以看到,在学习刚开始时,干扰机不熟悉环境,因此干扰动作是随机的。未经深度强化学习的干扰机干扰效率差,不能有效跟上跳频频点。图6(b)为经过深度强化学习后的频谱瀑布图,从图中可以看到,随着算法收敛完成,干扰频率会根据通信频率而改变,干扰频谱有效覆盖了大多数用户跳频通信频谱,充分证明了所提算法的有效性。干扰机有效学习到通信方的信道切换规律,而传统跟踪干扰方法由于传输时延问题并没有智能干扰方法的效果明显,因此从图上可得所提深度强化学习算法具有更好的干扰效果。

图6 算法所获得的频谱瀑布图

改变通信方的通信跳频参数,进一步验证智能干扰的适用性和智能性。首先改变跳频序列周期,对不同跳频序列周期的发送机进行干扰。图7(a)、图7(b)、图7(c)选择的跳频序列周期分别为20,50,100,也就是跳频序列每20,50,100 跳后循环重复一个周期。其中横轴表示算法的迭代次数,即频谱感知和深度学习的次数,纵轴表示通信目标的通信成功率,即能够通信的频点在总频点中所占的比例。可以看到,当跳频周期为20 和50时,干扰机经过2 000 次频谱感知和深度学习后,将通信方的通信成功率压制到了10%左右,用户机被成功干扰。而跳频序列周期为100 的用户机,也在3 000 多次迭代之后被成功干扰。

图7 不同跳频序列周期的仿真结果

之后改变跳频带宽,对不同跳频带宽的发送机进行干扰。图8(a)、图8(b)、图8(c)选择的跳频带宽分别是20 MHz,30 MHz,50 MHz。更宽的跳频带宽意味着跳频可出现随机频点的范围更大了。可以看到,基于深度强化学习的智能干扰效果明显,达到了预计的80%的干扰成功率。

图8 不同跳频带宽的仿真结果

4 结语

考虑到电磁频谱环境日益复杂,电磁频谱对抗愈加激烈,本文对智能干扰决策方法进行了研究。在充分讨论传统干扰机干扰样式贫乏、适用场景单一以及新兴抗干扰手段复杂多变的研究现状后,本文得出了“我方的干扰和攻击技术己无法满足通信对抗发展的需要”的结论。而后,本文充分讨论了深度强化学习的原理和优势,提出了要将深入强化学习引入干扰技术。之后将干扰过程建模成一个MDP 过程,为提升干扰机在动态频谱环境和大数据空间下的干扰能力,设计了基于深度强化学习的智能干扰方法。仿真结果表明,所提算法可以准确学习频谱环境并进行有效干扰,对不同种类的跳频通信信号具有很好的干扰效果。可以为后续干扰功能拓展开发、研究更加贴近实战的智能干扰机提供理论依据。

猜你喜欢

干扰机频谱决策
为可持续决策提供依据
一种用于深空探测的Chirp变换频谱分析仪设计与实现
雷声公司交付首套中频段下一代干扰机
决策为什么失误了
一种基于稀疏度估计的自适应压缩频谱感知算法
基于压缩感知的单脉冲雷达欺骗干扰机研究
空袭远距离支援干扰机阵位选择及航线规划
美国海军将研制新一代干扰机
认知无线电频谱感知技术综述
一种基于功率限制下的认知无线电的频谱感知模型