APP下载

基于深度强化学习的干扰探测共享信号设计

2023-11-10肖易寒刘禹汐于祥祯赵忠凯

关键词:频谱雷达编码

肖易寒,刘禹汐,于祥祯,赵忠凯

基于深度强化学习的干扰探测共享信号设计

肖易寒1, 2,刘禹汐1, 2,于祥祯3,赵忠凯1, 2

(1. 哈尔滨工程大学信息与通信工程学院,哈尔滨 150000;2. 先进船舶通信与信息技术工业和信息化部重点实验室,哈尔滨 150000;3. 上海无线电设备研究所,上海 201100)

针对当前雷达电子战越来越向着智能化的方向发展、传统干扰机无法适应环境变化、极大地降低了作战效果等问题,考虑将探测信号隐藏在干扰信号中,实现干扰探测共享信号,使侦察干扰机设备发射的干扰信号兼具探测的效果;针对当前干扰探测共享信号中存在的复杂度低、频谱宽度较窄等问题,设计了一种基于多载频多相位编码(multi-carrier phase code,MCPC)的干扰探测共享信号,其具有良好的类噪声宽频谱特性以及较好的距离探测能力和速度探测能力,可以在对目标雷达实现压制干扰的同时对目标信号及周围环境进行隐蔽探测;为了使共享信号能够适应对战场环境的感知与博弈,进一步引入深度强化学习算法对MCPC干扰探测共享信号进行优化;首先在竞争深度学习网络(dueling deep-learning network,DuDQN)的基础上对值进行正则化,解决了DuDQN中易出现的由过估计导致的局部最优问题;其次,在奖励值中引入状态价值函数形成复合奖励值,将其称为复合奖励值竞争深度正则化学习网络(composite reward-dueling deep-learning network based on regularization,CR-DuDQNReg),使MCPC共享信号对奖励值的敏感度随自身状态调整,自适应优化相位编码初值,达到更好的干扰和隐蔽探测的效果.实验仿真结果表明:经CR-DuDQNReg算法优化后的MCPC共享信号频谱最高幅度提升17.48%,脉压最高幅度提升17.25%,多普勒模糊函数第1旁瓣幅度降低12.69%,且与传统深度强化学习算法相比,CR-DuDQNReg算法的优化效果更好.

干扰探测共享信号;多载频多相位编码;深度强化学习;复合奖励值

随着现代电子战的电磁环境越来越复杂[1],雷达与干扰相互制衡、相互发展,敌我双方的对抗博弈日趋白热化,整体呈现出高强度、强对抗、复杂性高等特点[2].相对独立、功能单一的电子设备大大削弱作战平台的作战能力.当前,雷达电子战一体化发展的焦点问题是实现一种集干扰和探测于一体的共享信号,其可以提高硬件资源利用率和频谱利用率[2-3],利用强干扰信号进行隐蔽探测,让敌方平台误认为只是在发射纯雷达干扰信号[4],实现“能量共享”[5].

2016年,谭龙等[6]针对梳状谱信号的正交特性,分别对干扰信号和探测信号进行调制,得到雷达干扰探测共享信号波形;2020年,李其虎等[4]提出了基于双载频伪随机二相编码的共享信号波形;2021年,熊国淼等[7]提出一种伪码噪声调频与线性调频复合调制的干扰探测共享信号.在优化算法方面,2014年,韩国玺等[8]将基于自适应排序选择策略的混沌遗传算法应用于求解序列优化模型.2020年,朱晟坤等[9]建立了权重配置的一体化目标函数,给出了基于遗传算法的正交频分复用(orthogonal frequency division multiplexing,OFDM)子载波功率优化方法.目前,强化学习作为人工智能领域里面最活跃的研究领域之一[10],也在干扰信号的设计中得到广泛应用.2021年,陈涛等[11]将强化学习算法运用到干扰信号设计中,使干扰信号能够自适应雷达信号长度变化.为解决传统强化学习对环境的感知能力不足的问题,深度强化学习算法应运而生[12],在AlphaGo等复杂问题中的成功运用[13]使得深度强化学习成为电子战对抗领域中的新一研究热点.2021年,Li等[14]提出了一种基于深度强化学习的抗干扰策略设计方法.2022年,Michael等[15]设计了基于深度强化学习的框架,用于指导雷达跟踪参数的场景自适应选择,以提高多目标跟踪性能.

近年来,共享信号的研究逐渐成为热点.已有的共享信号多采用二相编码信号,使得信号复杂度较低、频谱宽度较窄.同时,在优化算法方面,以上研究表明,目前主要应用遗传算法或强化学习算法对干扰信号或共享信号进行优化,或者利用深度强化学习对雷达波形进行优化设计.

针对以上问题,本文提出将深度强化学习算法应用到干扰探测共享信号的设计中.首先提出了一种可以在实现压制干扰的同时对目标信号及周围环境进行隐蔽探测的多载频多相位编码(multi-carrier phase code,MCPC)干扰探测共享信号,其具有良好的类噪声宽频谱特性,可以实现较好的压制干扰,同时具有较好的距离探测能力和速度探测能力;其次在竞争深度学习网络(dueling deep-learning network,DuDQN)算法的基础上,引入一个始终有效的加权项来规范值,将其进行正则化[16],解决了传统深度强化学习算法中的过估计问题;再次,在奖励值中引入状态价值函数[17]形成复合奖励值,将其称为复合奖励值竞争深度正则化学习网络(composite reward-dueling deep,-learning network based on regularization,CR-DuDQNReg),增强状态与动作的内在联系,使共享信号在状态好时对环境奖励的敏感度高,在状态差时对环境奖励的敏感度低.该方法与传统算法相比在MCPC共享信号的优化问题上有更好效果,可以进一步提高干扰方的作战能力,适应对战场环境的感知与博弈.

1 干扰探测共享信号设计

1.1 多载频多相位编码共享信号设计

随着OFDM技术的发展,OFDM在雷达领域的应用也逐渐兴起[18].研究表明,可以通过OFDM共享信号[19-21]集成干扰和探测等多种需求.同时,当前新体制雷达大都采用先进的抗干扰算法,应对此抗干扰算法最有效的措施便是噪声压制干扰[7].因此,在OFDM信号的基础上引入相位编码,将多个混沌编码序列以相位编码的形式加到信号的多个载频上,得到MCPC信号.这样既保留了OFDM信号合成带宽大的优点,又把混沌的“类噪声”性能引入到信号之中,充分利用其随机性的特征,使信号的复杂度提高.同时,混沌编码序列的保密性也转换为信号的低可探测性[7],使信号难以被侦测方截获.MCPC信号可以看作是由若干个正交的单载频相位编码信号按相同的时间直接叠加而成.一般来说,由于不同子载频上搭载的相位编码是多变的,因此可以生成多种性能优异的多载频相位编码信号.

本文的共享信号设计过程如下.

(2)建立基于logistic映射的混沌序列,生成混沌相位编码序列为

图1 Logistic序列的初值敏感性示意

同时,混沌序列具有很好的类噪声性能,图2为迭代点数为600点的混沌序列的自相关函数,可以看出混沌序列的自相关函数近似为冲激函数,与白噪声的自相关函数接近.

图2 Logistic序列的自相关函数

1.2 共享信号目标函数设计

2 基于CR-DuDQNReg算法的共享信号优化设计

2.1 DuDQN算法

深度强化学习(deep reinforcement learning,DRL)是一种新兴智能算法[24],其过程与强化学习类似,设置奖励机制,通过试错的方式与环境进行交 互[11],多次循环后可以完成免模型条件下的最优决策问题.DuDQN是在DQN算法的基础上引入竞争网络(dueling network)结构,分离了状态值函数和与状态相关的动作优势函数[25],使得各个动作的估值不再独立,不同动作共享更泛化的状态值函数有利于减少对不同动作的估计偏差.

DuDQN算法能够区分目前奖励是由状态本身引起还是由选择的动作引起的.这种计算结构使得算法的学习性能得到提高.

2.2 CR-DuDQNReg算法

针对在上述算法中,式(10)中求解最大值的操作会导致过估计的问题,引入加权惩罚(weighted penalty),对值进行正则化[16].与此同时,为了增强状态与动作的内在联系,在奖励值中引入状态价值函数,提出了一种改进的DuDQN模型:CR-DuDQNReg,通过将状态价值函数与当前状态下执行动作的奖励值结合[17],增强状态与动作的内在联系,使得智能体在较好状态时,对环境奖励更加敏感,在较差状态时,对奖励不敏感,从而提高算法的稳定性.

在CR-DuDQNReg算法中,奖励信号值的计算公式为

此外,修改损失函数为

即用一个始终有效的加权项来规范值,将其正则化为较低的值,改善过估计问题.

CR-DuDQNReg模型的整体框架如图3所示.

图3 CR-DuDQNReg框架

2.3 基于CR-DuDQNReg算法的共享信号优化设计

基于CR-DuDQNReg算法的多载频多相位编码共享信号优化设计整体流程如图4所示.首先,根据给定的信号参数和生成的随机数建立初始共享信号.其次,将随机数转换为二进制序列,作为CR-DuDQNReg优化算法的初始状态,并将共享信号的脉压均值与标准差之比、时延模糊函数的峰值旁瓣比和多普勒模糊函数的峰值旁瓣比三者加权求和作为目标函数,应用CR-DuDQNReg算法对二进制序列进行优化,具体优化算法见第2.2节.最后,当算法到达终止状态时,输出最终的二进制序列,将其转换为十进制小数应用到共享信号的相位编码中,得到最终的共享信号.

将CR-DuDQNReg算法应用到MCPC干扰探测共享信号的优化设计中的具体步骤如下:

输入雷达信号参数、共享信号参数、初始化网络参数;

图4 基于CR-DuDQNReg的MCPC共享信号优化设计流程

3 实验仿真与分析

实验的软硬件环境如表1所示.

表1 实验软硬件环境

Tab.1 Software and hardware environments of the ex-periment

实验包括信号设计仿真、优化算法仿真以及算法对比3个部分.在算法对比部分,分别对比了CR-DuDQNReg算法和DuDQN、DQN、-learning在不同雷达信号长度下的收敛情况和对MCPC共享信号的优化情况.

3.1 仿真1:共享信号设计仿真分析

共享信号设计仿真分析具体的参数设置如表2所示.首先,对共享信号的干扰性能进行分析. 如图5所示,在干信比大于20dB的情况下,共享信号的频谱特性与噪声特性趋于一致,即杂乱且不确定性较大,并可以完全覆盖雷达信号,形成压制干扰效果.

表2 雷达信号及共享信号仿真参数

Tab.2 Simulation parameters of the radar and shared signals

图5 共享信号与雷达信号频谱对比

如图6所示,在干信比大于20dB的情况下,经过脉压后的信号波形失去线性调频信号特性且峰值位置改变,使真实目标回波信号被干扰淹没.因此可以说明本文的共享信号具有良好的压制干扰性能.

图6 共享信号与雷达信号脉压对比

图7 共享信号的时延模糊函数

图8 共享信号的多普勒模糊函数

3.2 仿真2:CR-DuDQNReg算法仿真分析

应用本文提出的CR-DuDQNReg算法对共享信号进行优化,CR-DuDQNReg网络参数设置如表3 所示.

表3 CR-DuDQNReg网络参数设置

Tab.3 Parameter setting of CR-DuDQNReg

首先,分析CR-DuDQNReg算法对共享信号干扰性能的优化效果.由图9可以看出,经CR-DuDQNReg算法优化设计后的共享信号频谱仍保持类噪声的杂乱特性且幅度更高,最高峰幅度提高17.48%,即对雷达信号的遮盖力增强,形成更好的压制干扰效果.

图9 共享信号优化前后频谱对比

由图10可以看出,经过CR-DuDQNReg算法优化设计后的共享信号脉压幅度也有所提升,最高峰幅度提高17.25%,可以更好地淹没真实目标回波,增强压制干扰效果.因此可以证明本文的CR-DuDQNReg算法对共享信号的干扰性能有良好的优化效果.

图10 共享信号优化前后脉压结果对比

其次,分析CR-DuDQNReg算法对共享信号探测性能的优化效果.由图11可以看出,经CR-DuDQNReg算法优化设计后的共享信号的时延模糊函数仍呈现良好的“图钉”形状,仅在原点处有一尖峰,同时旁瓣有所下降,减少了时延模糊.由图12可以看出,经CR-DuDQNReg算法优化设计后的共享信号多普勒模糊函数仍呈现较好的“图钉”形状,能量主要集中在主瓣,同时旁瓣下降,多普勒模糊函数第1旁瓣幅度下降12.69%,减少了多普勒模糊.证明本文算法对共享信号的探测性能有良好的优化效果,能够同时获得更高的距离分辨率和速度分辨率.

图11 共享信号优化前后时延模糊函数对比

图12 共享信号优化前后多普勒模糊函数对比

CR-DuDQNReg算法误差曲线如图13所示,可以看出随着训练步数的增加,误差整体呈现下降的趋势,在训练步数达到600步后逐渐收敛,算法的最佳训练步数在800~1000之间.

图13 CR-DuDQNReg算法误差曲线

3.3 算法对比分析

为了充分验证算法的有效性,将DuDQN、DQN、Q-learning算法与CR-DuDQNReg算法进行对比.各算法中的参数设置均相同.为了定量地对比不同算法的优缺点,在干扰性能方面引入干信比作为评估指标,即共享信号与雷达信号的功率之比,在雷达信号与原始共享信号相同的情况下,经算法优化后的干信比越大,证明共享信号的功率提升越多,信号的干扰性能越好.在探测性能方面引入时延分辨常数和多普勒分辨常数作为评估指标,该指标分别代表时延模糊函数和多普勒模糊函数的全部能量与主峰能量的比值,分辨常数越小,分辨力就越高.信号的模糊函数计算公式为

当其他条件不变时,更改雷达信号长度分别为20ms、40ms、60ms、80ms、100ms,对不同算法进行多角度对比,如表4所示.表中数据均为多次训练结果的平均值.

通过数据对比可以看出,最终各算法的目标函数值均趋于稳定.且随着雷达信号长度的增加,目标函数值总体呈先上升后下降的趋势,但CR-DuDQNReg算法均对应最高的目标函数值.

表4 不同雷达信号长度下各算法优化后目标函数对比

Tab.4 Comparison of target functions optimized by algo-rithms under different radar signal lengths

表5为各算法优化后的干信比对比.通过数据对比可以看出,经算法优化后,干信比均有所提升,且经CR-DuDQNReg算法优化后干信比提升最多,说明CR-DuDQNReg算法对共享信号的干扰性能有着良好的优化效果.

表5 不同雷达信号长度下各算法优化后干信比对比

Tab.5 Comparison of the interference-to-signal ratio of optimized algorithms under different radar signal lengths  dB

表6为各算法优化后的时延分辨常数对比.通过数据对比可以看出,经算法优化后,时延分辨常数均有所下降,且经CR-DuDQNReg算法优化后时延分辨常数减少量最多,说明CR-DuDQNReg算法对共享信号的距离探测性能有着良好的优化效果.

表6 不同雷达信号长度下各算法优化后时延分辨常数对比

Tab.6 Comparison of the optimized time delay resolution constant for each algorithm under different radar signal lengths  μs

表7为各算法优化后的多普勒分辨常数对比.通过数据对比可以看出,经算法优化后,多普勒分辨常数均有所下降,且经CR-DuDQNReg算法优化后多普勒分辨常数减少量最多,说明CR-DuDQNReg算法对共享信号的速度探测性能有着良好的优化 效果.

表7 不同雷达信号长度下各算法优化后多普勒分辨常数对比

Tab.7 Comparison of Doppler resolution constants opti-mized by algorithms under different radar signal lengths    Hz

4 结 论

针对现有干扰探测共享信号复杂度低、频谱宽度较窄等问题,本文提出了一种基于多载频多相位编码的干扰探测共享信号,并采用一种新的深度强化学习算法对信号进行优化设计,最后进行仿真验证与对比分析,得出如下结论.

(1)提出了一种基于多载频多相位编码的干扰探测共享信号,其具有良好的压制干扰和探测性能.

(2)为了适应对战场环境的感知与博弈,进一步提出一种基于深度强化学习的多载频多相位编码干扰探测共享信号优化设计方法.其次,为了解决传统深度强化学习算法中值过估计引起的信号优化陷入局部最优的问题,基于竞争深度学习网络算法,引入值的正则化.再次,为了增强状态与动作的内在联系,引入复合奖励值,将其称为复合奖励值的竞争深度正则化学习网络.同时将传统算法DuDQN、DQN、以及-learning作为对比算法来验证该方法的可行性和优点.

(3)仿真结果表明,本文所提的共享信号具有良好的频谱和脉压特性,同时具有良好的探测能力.本文的优化算法可以使共享信号能够达到自适应雷达信号变化的目的,且与传统算法相比,优化效果更好,可以更好地提升共享信号的频谱和脉压幅度,增强压制干扰效果,其中,经CR-DuDQNReg算法优化后的MCPC共享信号频谱最高幅度提升17.48%,脉压最高幅度提升17.25%;同时降低共享信号的模糊函数旁瓣,提高探测能力,其中,经CR-DuDQNReg算法优化后的MCPC共享信号多普勒模糊函数第1旁瓣幅度降低12.69%.本文所提的基于深度强化学习算法的多载频多相位编码干扰探测共享信号优化设计理论和仿真分析结果可以为共享信号的工程化应用提供理论参考.

[1]郭立民,聂新文,陈 涛,等. 基于注意力机制的雷达信号分选算法[J]. 天津大学学报(自然科学与工程技术版),2022,55(7):690-700.

Guo Limin,Nie Xinwen,Chen Tao,et al. Radar signal sorting algorithms based on attention mechanisms[J]. Journal of Tianjin University(Science and Technology),2022,55(7):690-700(in Chinese).

[2]李高云,旷生玉,江 果,等. 智能化电子战装备发展路径探讨[J]. 中国电子科学研究院学报,2022,17(1):7-11.

Li Gaoyun,Kuang Shengyu,Jiang Guo,et al. Devel-opment path of intelligent electronic warfare equipment[J]. Journal of China Academy of Electronics and Information Technology,2022,17(1):7-11(in Chi-nese).

[3]Wang X J,Zhang Z K,Najafabadi H E. Joint range and velocity estimation for integration of radar and communi-cation based on multi-symbol OFDM radar pulses[J]. IET Radar,Sonar & Navigation,2021,15(5):533-545.

[4]李其虎,王 颖,商开拴. 干扰探测一体化信号波形设计与性能仿真[J]. 探测与控制学报,2020,42(1):39-43.

Li Qihu,Wang Ying,Shang Kaishuan. Design and per-formance simulation for the detection and jamming inte-grated signal waveform[J]. Journal of Detection & Con-trol,2020,42(1):39-43(in Chinese).

[5]熊国淼,李云鹏,陈 超. 一种伪随机复合调制的探干一体化信号设计[J]. 现代雷达,2021,43(9):80-85.

Xiong Guomiao,Li Yunpeng,Chen Chao. A detection-jamming integrated signal design of pseudo-random composite modulation[J]. Modern Radar,2021,43(9):80-85(in Chinese).

[6]谭 龙,姜秋喜,刘方正. 正交梳状谱型探测干扰一体化信号波形[J]. 探测与控制学报,2016,38(2):78-81,87.

Tan Long,Jiang Qiuxi,Liu Fangzheng. Detection and jamming integration signal of orthogonal comb wave-orm[J]. Journal of Detection & Control,2016,38(2):78-81,87(in Chinese).

[7]熊国淼,李云鹏,李鹏蛟. 基于PNFM-LFM复合调制的探测干扰共享信号设计[J]. 航空学报,2021,42(8):347-357.

Xiong Guomiao,Li Yunpeng,Li Pengjiao. Design and performance analysis of an integrated detection-jamming shared waveform based on PNFM-LFM composite modulation[J]. Acta Aeronautica et Astronautica Sinica,2021,42(8):347-357(in Chinese).

[8]韩国玺,何 俊,潘启中. 基于ICGA的雷达与雷达干扰一体化信号的优化设计[J]. 计算机工程与应用,2014,50(2):212-215.

Han Guoxi,He Jun,Pan Qizhong. Optimization design of radar and jammer integration signal based on imroved chaos genetic algorithm[J]. Computer Engieering and Applications,2014,50(2):212-215(in Chinese).

[9]朱晟坤,杨瑞娟,左家骏. 雷达通信干扰一体化OFDM共享信号优化方法[J]. 兵器装备工程学报,2020,41(11):218-223.

Zhu Shengkun,Yang Ruijuan,Zuo Jiajun. Integrative waveform optimization of radar communication jamming based on OFDM signal[J]. Journal of Ordnance Equip-ent Engineering,2020,41(11):218-223(in Chinese).

[10]Mousavi S S,Schukat M,Howley E. Deep reinforce-ent learning:An overview[EB/OL]. http://arxiv.ogr/ abs/1806.08894,2018-06-23.

[11]陈 涛,张 颖,黄湘松. 基于强化学习的自适应干扰波形设计[J]. 空天防御,2021,4(2):59-66.

Chen Tao,Zhang Ying,Huang Xiangsong. Adaptive interference waveform design based on reinforcement learning[J]. Air & Space Defense,2021,4(2):59-66(in Chinese).

[12]Qiu H,Liu F. A state representation dueling network for deep reinforcement learning[C]//2020 IEEE 32nd Inter-ational Conference on Tools with Artificial Intelli-ence(ICTAI).Baltimore,USA,2020:669-674.

[13]Volodymyr M. Human-level control through deep rein-orcement learning[J]. Nature,2015,518(7540):529-533.

[14]Li K,Jiu B,Wang P H,et al. Radar active antagonism through deep reinforcement learning:A way to address the challenge of mainlobe jamming[J]. Signal Process-ing,2021,186(4):108130.

[15]Michael S,Lorenzo S,José A M,et al. Scene-adaptive radar tracking with deep reinforcement learning[J]. Machine Learning with Applications,2022,8:100284.

[16]Co-reyes J D,Miao Y J,Peng D Y,et al. Evolving reinforcement learning algorithms[C]//2021 Interna-tional Conference on Learning Representations. Vienia,Austria,2021.

[17]张俊杰,张 聪,赵涵捷. 重复利用状态值的竞争深度Q网络算法[J]. 计算机工程与应用,2021,57(4):134-140.

Zhang Junjie,Zhang Cong,Zhao Hanjie. Dueling deep Q network algorithm with state value reuse[J]. Computer Engineering and Applications,2021,57(4):134-140(in Chinese).

[18]Yang Y J. Research on reducing PAPR of QAM-OFDM radar-communication integration sharing signal[J]. The Journal of Engineering,2019,2019(21):8042-8046.

[19]刘永军,廖桂生,杨志伟,等. 一种超分辨OFDM雷达通信一体化设计方法[J]. 电子与信息学报,2016,38(2):425-433.

Liu Yongjun,Liao Guisheng,Yang Zhiwei,et al. A super-resolution design method for integration of OFDM radar and communication[J]. Journal of Electronics & Information Technology,2016,38(2):425-433(in Chinese).

[20]Kumari P,Choi J,Gonzalez P N,et al. IEEE 802. 11ad-based radar:An approach to joint vehicular communication-radar system[J]. IEEE Transactions on Vehicular Technology,2018,67(4):3012-3027.

[21]Moghaddasi J,Wu K. Multifunctional transceiver for future radar sensing and radio communicating data-fusion platform[J]. IEEE Access,2016,4:818-838.

[22]罗 蓬,刘开华,史伟光,等.非规则部分校准阵列下的宽带LFM信号二维DOA估计[J]. 天津大学学报(自然科学与工程技术版),2012,45(4):325-330.

Luo Peng,Liu Kaihua,Shi Weiguang,et al. 2-D DOA estimation of wideband LFM signals in partly calibrated irregular array[J]. Journal of Tianjin University(Science and Technology),2012,45(4):325-330(in Chinese).

[23]汪 清,燕瑞超. 基于FBMC的多基地外辐射源雷达性能分析[J]. 天津大学学报(自然科学与工程技术版),2017,50(8):821-827.

Wang Qing,Yan Ruichao. Performance analysis for the multistatic passive radar based on FBMC[J]. Journal of Tianjin University(Science and Technology),2017,50(8):821-827(in Chinese).

[24]Zhang L,Wang G H,Zhang X Y,et al. Interrupted-sampling repeater jamming adaptive suppression algo-rithm based on fractional dictionary[J]. Systems Engi-neering and Electronics,2020,42(7):1439-1448.

[25]Wang Z,Freitas N D,Lanctot M. Dueling network architectures for deep reinforcement learning[EB/OL]. https://arxiv. org/abs/1511. 06581v2,2015-11-20.

Design of Jamming-Detection Shared Signal Based on Deep Reinforcement Learning

Xiao Yihan1, 2,Liu Yuxi1, 2,Yu Xiangzhen3,Zhao Zhongkai1, 2

(1. College of Information and Communication Engineering,Harbin Engineering University,Harbin 150000,China;2. Key Laboratory of Advanced Marine Communication and Information Technology,Ministry of Industry and Information Technology,Harbin 150000,China;3. Shanghai Radio Equipment Research Institute,Shanghai 201100,China)

Owing to the increasing intelligence of radar electronic warfare systems,traditional jammers cannot adapt to the changes in the environment,which greatly reduces their effectiveness. The detection signal can be hidden in the jamming signal to construct a jamming-detection shared signal so that the jamming signal sent by the reconnaissance jammer equipment has a detection effect. In this paper,a jamming-detection shared signal based on a multi-carrier phase code(MCPC)is designed to solve the problems of low complexity and narrow spectrum width of the current jamming-detection shared signal. This signal features good noise-like wide spectrum characteristics,good distance detection capacities,and good speed detection capacities. Moreover,it can suppress the jamming on the target radar and covertly detect the target signal and surrounding environment. To adapt the shared signal to the perception and activity of the battlefield environment,a deep reinforcement learning algorithm is introduced to optimize the shared signal of MCPC. The-value is first regularized using the dueling deep-learning network,which solves the local optimization problem caused by the overestimation in the network. A state value function is then introduced into the reward value to form a composite reward,which is referred to as the composite reward-dueling deep-learning network based on regulation(CR-DuDQNReg). The sensitivity of the MCPC shared signals to the reward value can then be adjusted according to the signal’s own state,and the initial phase code value can be adaptively optimized to suppress interference and improve covert detection. The experimental results showed that the maximum spectrum amplitude of the MCPC signal optimized using CR-DuDQNReg was increased by 17.48%,the maximum pulse compression amplitude was increased by 17.25%,the first side lobe amplitude of the Doppler ambiguity function was reduced by 12.69%,and the optimization effect was better than that of the traditional deep reinforcement learning algorithm.

jamming-detection shared signal;multi-carrier phase code;deep reinforcement learning;composite reward

the National Defense Science and Technology Base Strengthening Program Funding(No. 2019-JCJQ-ZD-067-00),the Fundamental Research Funds for the Central Universities(No. 3072022CF0802).

10.11784/tdxbz202210027

TN972

A

0493-2137(2023)12-1326-11

2022-10-23;

2023-01-17.

肖易寒(1980—  ),女,博士,副教授,xiaoyihan@hrbeu.edu.cn.Email:m_bigm@tju.edu.cn

赵忠凯,zhaozhongkai@hrbeu.edu.cn.

国防科技基础加强计划资助项目(2019-JCJQ-ZD-067-00);中央高校基本科研业务费专项资金资助项目(3072022CF0802).

(责任编辑:孙立华)

猜你喜欢

频谱雷达编码
有雷达
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
一种用于深空探测的Chirp变换频谱分析仪设计与实现
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
雷达
一种基于稀疏度估计的自适应压缩频谱感知算法
Genome and healthcare
基于空时二维随机辐射场的弹载雷达前视成像
现代“千里眼”——雷达