APP下载

基于强化学习的自适应干扰波形设计

2021-06-24黄湘松

空天防御 2021年2期
关键词:干扰信号间歇波形

陈 涛,张 颖,黄湘松

(1.哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨 150001;2.黑龙江省多学科协同认知人工智能技术与应用重点实验室,黑龙江哈尔滨 150001)

0 引言

随着信息技术的飞速发展,在现代战场中,电磁环境越来越复杂,作战环境瞬息万变,充分学习和利用各种环境信息、自适应调整系统状态已成为未来电子装备发展的主要方向之一[1]。传统干扰机往往发射一种或几种固定的波形[2],其干扰波形库简单,因此极大地降低了电子干扰的作战效果。与此同时,认知雷达的发展也使得电子对抗向智能方向发展[3-5]。

目前国内外关于自适应干扰波形设计的文献较少[6]。文献[7]将改进遗传算法应用到干扰样式自适应选择中。文献[8-9]研究了基于低截获概率(low probability of intercept,LPI)的与任务相关的自适应雷达干扰波形设计,首先推导出目标检测和参数估计的信干噪比(signal-to-jamming-plus-noise ratio,SJNR)准则和互信息(mutual information,MI)准则,针对战场电磁环境的复杂性和不确定性,采用梯形模糊数来描述系统整体性能的阈值,然后将模糊机会约束规划模型转化为清晰的等价形式,使干扰总功率达到最小。文献[10]研究了单元平均恒虚警概率(CACFAR)的抗干扰机制,根据信号与干扰和参考距离的关系,将干扰波形的幅值设计为服从瑞利分布和有限区间随机。近年来,强化学习作为一种智能算法在干扰波形设计中也得到广泛应用[11],文献[12]研究了认知干扰波形设计,将强化学习算法运用到干扰波形设计中。

以上文献主要研究已知长度雷达信号的干扰波形。随着战场环境日益复杂化,未知长度的雷达信号更为普遍。为了进一步提高对未知信号的适应能力并实现本脉冲内干扰,本文研究了针对未知长度雷达信号的干扰波形。在干扰样式选择中,间歇采样转发干扰[13]得到广泛应用。因此,本文在此基础上充分分析间歇采样信号的干扰特性,并将强化学习算法与“切割”假设法结合来设计针对变化雷达信号的自适应干扰波形,最后将恒虚警概率作为交互函数来评估干扰效果。

1 间歇采样信号参数对线性调频信号脉压处理的影响

己方干扰的工作过程可以描述为:当检测到对方的雷达信号s(t)后,对其进行间歇采样转发干扰得到干扰信号j(t),对方收到干扰信号后进行脉压处理,得到最终的干扰信号y(t),具体的工作过程如图1所示。图中,p(t)为间歇采样信号。

图1 干扰过程示意图Fig.1 Schematic diagram of interference process

为提高雷达的作用距离和距离分辨率,现代雷达普遍采用脉冲压缩雷达,其中线性调频信号(linear frequency modulation,LFM)是脉冲压缩雷达最常用的调制信号,因此雷达信号s(t)的表达式为

信号s(t)匹配滤波器的系统函数为h(t)=其中:符号“-”代表取共轭;t0是使其为因果可实现系统的常数,可令t0=0。故h(t)的表达式为

线性调频信号经过匹配滤波器的输出为

式中:∗代表卷积;τ为采样时间。

由式(3)可知,线性调频信号经过脉压处理后得到一个固定载频的信号,且包络近似为sinc函数。

此外,LFM信号具有大的时宽带宽积,而间歇采样转发是针对大时宽带宽积信号的有效干扰技术,因此本文使用间歇采样技术产生干扰信号。其过程为当己方截获到雷达信号后,对其进行采样然后转发出去,直至信号结束,间歇采样转发干扰的原理如图2所示。

图2 间歇采样转发干扰原理图Fig.2 Schematic diagram of intermittent sampling and forwarding interference

图中:τ为采样时间;η为转发时间;Ts为间歇采样转发干扰的周期;间歇采样信号p(t)可表示为

式中:δ(t)为冲激函数;n为采样次数。

干扰信号j(t)为

脉冲压缩技术能够将大时宽带宽的脉冲信号压缩为窄脉冲,以提高雷达对目标的距离分辨精度和距离分辨力。故不妨假设对方在收到干扰信号后,对其进行了脉压处理,输出y(t)为

式(6)第一项中的ys(t)为式(3)的结果,可以得出,与真实目标脉压后相比,干扰信号脉压后可以产生与真实目标具有相同特性的假目标,仅在幅度上有所区别。因此,第一项为主假目标,其余均为次假目标,次假目标相当于对主假目标进行频移,频移量为±nfs,位于主假目标的两侧,因此总体上可以对敌方造成欺骗干扰。其中主假目标的幅度受占空比的影响,在时刻,次假目标幅度为,幅度同样受占空比的影响。

由此可知,改变间歇采样的采样时间、转发时间,可以得到幅度以及位置都不相同的欺骗干扰。仿真图形如图3所示。为方便比较,信号幅度均进行归一化处理。

由图3可知:采样时间的占空比越大,则主次假目标的幅度越高。因此采样时间、转发时间等参数均是影响干扰效果的因素。

图3 干扰信号仿真图Fig.3 Simulation diagram of interference signal

2 基于强化学习算法的波形设计

2.1 恒虚警概率检测

改变间歇采样的参数,可以影响干扰的性能,因此可以利用这一点设计不同的干扰波形。本文主要针对雷达检测环节进行干扰,雷达信号检测是基于一定的概率准则进行的。雷达根据系统对检测概率PD和虚警概率PF的要求,在一定信噪比下确定检测门限,当信号的强度超过该门限时就说明检测到目标。恒虚警概率检测能够自适应地调整门限,是一种常用的雷达信号检测技术,因此将CFAR作为环境交互模型。

常见的CFAR 算法包括单元平均恒虚警概率(CA-CFAR)、单元取大恒虚警概率(GO-CFAR)、单元取小恒虚警概率(SO-CFAR)等。本文选取其中的CA-CFAR 算法进行分析,其原理如图4所示。图中:x1,x2,…,xN为左侧每个参考单元信号的幅度值;y1,y2,…,yN为右侧每个参考单元信号的幅度值;Z为总共2N个参考单元幅度的平均值。

图4 CA-CFAR算法检测原理Fig.4 Principle diagram of CA-CFAR

检测单元的两侧设置保护单元和参考单元。检测单元的门限值由左右两侧参考单元的幅度值来确定。若检测单元的值大于检测门限,则判断存在目标信号;如若检测单元的值小于检测门限,则判断目标信号不存在。仅有目标与噪声时,设置信噪比15 dB,CA-CFAR算法检测仿真如图5所示。

图5 CA-CFAR算法检测仿真Fig.5 The simulation diagram of CA-CFAR

为了达到掩盖目标信号的目的,需要将所有参考单元的电平值提高,使敌方发生严重的虚警。因此需要找到幅度值最低的单元向其填充干扰信号,而填充信号的幅度与间歇采样信号的参数有关。间歇采样干扰信号经过匹配滤波后,波形近似为sinc函数,每次向目标单元填充信号时,信号也会落入其他单元,随着填充次数的增加,所有参考单元的幅度值均会提高。

2.2 强化学习算法

在实际战场中雷达信号形式多变,无法得到一个确定的信号模型。而强化学习设置了奖励机制,它通过试错的方式与环境进行交互,通过多次采样可以完成免模型条件下的最优决策问题。因此考虑将强化学习应用到干扰波形设计中,使得干扰信号能够自适应雷达信号的变化。

强化学习是一个马尔科夫过程,一个主体观测到环境的状态S后按照一定的策略π选择动作A作用于环境,并得到此次动作的奖励值r强化学习Q 表的更新,可以用动作值函数来表示,即

式中:Qt(s,a)为当前时刻的动作值函数;Qt(s′,a′)为取当前动作到下一状态的动作值函数;rt为当前时刻的奖励值;Qt+1(s,a)为下一时刻的动作值函数;α为学习率;γ为折扣因子。

为了避免陷入局部最优解,策略π的选取采取“探索-利用”折中的方法:ε-greedy(贪心)算法,其中以(1-ε)的概率进行利用,以ε的概率进行探索,可表示为

根据马尔科夫过程的性质,选择异策略对非最优解进行优化,也就是使用强化学习中的Q-Learning算法:策略评估时使用贪心算法,策略改进时使用原始策略。

为了对CFAR 进行干扰,强化学习的目的是将CFAR 中所有参考单元的幅度值提高,而参考单元幅度值的大小与间歇采样的参数有关,因此不妨令采样时间为转发时间的a倍,得到强化学习的设计规则为:

1)动作集A:采样时间倍数ai,A∈[a1,am],初始动作随机,下一动作按Q-Learning的策略π进行选择;

2)状态集S:干扰信号距离单元,S∈[s1,sv],初始状态随机选择,下一状态为幅度最小值所在的距离单元;

3)奖励值r:当前参考单元与检测单元幅度的比值,幅度值越高,奖励值越大;

4)循环次数设为j次。

强化学习是一个探索加利用的过程,循环次数结束后得到一个收敛的动作-状态值的二维表格。

2.3 “切割”假设法

实施干扰前,若能先侦察到对方雷达信号的长度,强化学习中的状态值就能够确定,便可实现本脉冲内干扰,以达到实时性的要求。而在实际战场中,由于环境的复杂变化,很难得到雷达信号的确切信息,这种情况下强化学习的状态值无法确定。为此提出一种“切割”假设法,将状态值这个未知量化为已知量,再运用强化学习完成本脉冲内干扰,“切割”假设法示意图如图6所示。

图6 “切割”假设法示意图Fig.6 Schematic diagram of‘cutting’method

其过程为:当干扰系统侦察到对方雷达信号后,假设雷达信号的长度为Tw=b×w,w∈[1,2,3,…,M],单位为μs,然后对信号长度进行w次切割,切割单位为b。可解释为:当检测到雷达信号时,便假设截获到的信号长度为bμs,并对这bμs 的雷达信号进行脉压处理,再应用强化学习的规则设计干扰波形,同时通过Q表得到bμs信号的最佳输出动作值;若bμs后,仍检测到对方信号,此时w的值为2,第2 次假设雷达信号的总长度为2bμs,并对b~2bμs 间的信号直接利用第1 次得到的最佳动作设计干扰波形;以此类推,直至信号结束。若bμs 信号的采样次数为n,则信号长度为Tw时,采样次数为w×n。最终将所有切割的信号组合到一起,组合后假设信号的长度可能会大于真实信号的长度,但对于检测环节来说,开头以及结尾的一段信号对于恒虚警概率检测算法影响不大,因此可以近似得到真实雷达信号的干扰波形,“切割”假设法的流程如图7所示。

图7 “切割”假设法流程图Fig.7 Flow chart of‘cutting’method

3 实验仿真与分析

3.1 仿真1:强化学习算法仿真分析

对于已知形式的雷达信号可以直接使用强化学习算法,仿真参数设置为:雷达信号长度为50 μs,调频带宽10 MHz,距离分辨率为,故每个距离单元为15 m,信噪比15 dB,学习率α为0.001,折扣因子γ为0.8,ε为0.9,迭代次数为10 000 次,令间歇采样周期为2 μs,则采取动作值为25 次,且取值范围为1~10。由此可得仿真图如图8所示。

图8 强化学习后的干扰效果图(50 μs)Fig.8 Effect diagram of interference after reinforcement learning

由图8可知,经过强化学习后输出一组动作值,根据这组动作值得到图8(b)所示的干扰信号,干扰信号恒虚警概率检测单元如图8(c)(纵坐标归一化处理)所示。

此时不妨用幅度的均值E(h)与标准差σ(h)的比值d来描述整体的幅度提升效果,即,通过计算可得d=2.077 1。

当雷达信号长度为80 μs时,强化学习后CFAR检测单元值如图9所示。

图9 强化学习后的干扰效果图(80 μs)Fig.9 Effect diagram of interference after reinforcement learning

此时,计算得d=2.786 0。

3.2 仿真2:“切割”假设法对比分析

对于未知形式的雷达信号用强化学习算法无法确定状态值,因此运用假设法。

仿真参数设置:随机产生一个50∼300 μs 的数T来表示未知长度的雷达信号,其他参数设置与仿真1相同。第1 个50 μs属于强化学习中的学习过程,输出的动作值并不是最佳动作值,但此时已经成功建立Q表,通过Q 表的值可以得到最佳输出动作,因此50 μs后的每一段信号便可直接使用这个最佳动作值。当随机产生信号长度在50∼100 μs 范围内时,假设真实信号的长度便为100 μs,并对100 μs 的信号进行强化学习,最终仿真图形如图10所示。

图10(b)的仿真结果给出了运用“切割”假设法得到的针对100 μs 雷达信号设计的干扰波形,其中d=2.952 0。

图10 100 μs内信号的干扰效果图Fig.10 Effect diagram of signal interference within 100 μs

3.3 仿真3:与传统算法对比分析

在寻优问题中,智能仿生算法也得到广泛应用,其中蚁群算法具有较好的并行性和协作性,不妨将强化学习算法与蚁群算法进行对比。其设计步骤为:

1)步骤1:将m只蚂蚁随机放入CFAR 距离单元中,起始信息素为0。

2)步骤2:将间歇采样信号的采样时间倍数an作为蚂蚁的动作变量。随机选取ai为初始动作,进行间歇采样转发后计算比值d,并将蚂蚁移至幅度最低的单元,每只蚂蚁留下的信息素为,且。

3)步骤3:第一次得到m条路径后对信息素进行更新,选择d最大的路径为当前路径,然后清空路径表保留信息素,更新表达式为

4)步骤4:重新将这组蚂蚁随机置于不同单元,重复步骤2 和3,对各代最佳路径进行对比,能使各参考单元内d值最大的一条路径,就是最佳路径。

仿真参数设置:雷达信号长度为50 μs,其余参数与仿真1参数相同,蚂蚁数量m为30,信息数挥发因子为0.2,迭代次数为100次,得到仿真图如图11所示。

图11 蚁群算法仿真图Fig.11 Ant colony algorithm simulation diagram

由图11可知,蚁群算法也能完成对雷达信号的干扰,其中d=1.019 9。强化学习算法与蚁群算法均可实现对确定形式雷达信号的干扰。而d值在一定程度上反映了干扰效果,因此不妨令雷达信号长度依次为50 μs,100 μs,150 μs,…,300 μs,其他仿真参数均不变,分别计算d值,仿真结果如图12所示。

图12 d值对比图Fig.12 Contrast figure of‘d’

由图12 可知强化学习d值的变化范围在2~3 之间,蚁群算法的变化范围在1~1.5 之间。前者大于后者的原因在于强化学习是一个探索加利用的过程,设立了奖励机制,先前学习到的结果可以为后面的学习提供参考,而蚁群算法前期搜索时间长以致收敛速度慢,并且解的质量受参数的影响大。

4 结束语

本文针对传统干扰系统干扰样式单一、作战效率低等问题,提出将强化学习算法与“切割”假设法相结合运用到干扰波形设计中,使干扰信号能够达到自适应雷达信号变化的目的,同时将蚁群算法作为对比算法来验证该方法的可行性和优点。该方法从间歇采样转发干扰信号经过匹配滤波器后的特性出发,并用此特性来干扰检测系统中的恒虚警概率。仿真结果表明,强化学习算法与假设法相结合能够自适应雷达信号的变化,实时设计干扰波形。本文所提的基于强化学习算法的自适应波形设计理论和仿真分析结果可以为干扰波形的工程化应用提供理论参考。

猜你喜欢

干扰信号间歇波形
正面碰撞车身加速度对乘员腿部损伤的影响
基于时域波形掩护的间歇采样干扰对抗研究
基于小波域滤波的电子通信信道恶意干扰信号分离方法
间歇供暖在散热器供暖房间的应用
基于DJS的射频噪声干扰信号产生方法及其特性分析
通用6T系列变速器离合器鼓失效的解决方案
间歇训练法在提高青少年耐力素质方面的应用
冠心病患者出现窦性停搏1例
智能天线在移动通信中的应用分析
Writing Chinese Characters