一种基于长时聚类关联的辐射源编批方法
2023-09-13闫胜刚
闫胜刚,田 田,张 冉,贾 然
(中国船舶集团有限公司第八研究院,南京 211153)
0 引 言
辐射源编批是指将多个分选间隔内由信号分选生成的所有辐射源描述字(Emitter Descriptor Word,EDW)按照一定的规则进行合并、关联及更新,以生成最终的目标EDW,每个目标EDW都赋予一个唯一的批号。EDW关联的准确性是决定辐射源编批效果的关键:一方面,现有编批算法通常基于预设的“信号参数容差”(载频、重复周期、脉宽等)计算相似度,而“信号参数容差”易受到雷达发射机的工作模式、反侦察波形设置以及接收机所处的电磁环境、接收机体制、性能和工作状态等众多因素的影响,因此,准确地分析和设置“信号参数容差”较为困难[1];另一方面,受制于辐射源天线和截获接收机天线不同的扫描方式、扫描周期等原因,对某个辐射源的截获可能并不是连续存在的,现有编批算法在编批时并没有考虑当前目标与历史编批目标的关联性,表现在对某个目标编批时,即使该目标曾经成功编批(但当前已删除),还是会赋予该目标新批号,导致同一个辐射源不同时刻具有不同批号,影响了编批准确率。
针对上述问题,提出一种基于长时聚类关联的辐射源编批方法,通过单个聚类间隔内的EDW聚类提高EDW关联的准确度,通过多个聚类间隔间EDW聚类结果的关联、合并和更新,实现长时间维度上的辐射源信号碎片关联,提高辐射源编批准确率。
1 长时聚类编批
已有的研究大多将聚类算法用于对截获的PDW数据进行聚类预分选或分选[1-2],缺乏利用聚类算法对EDW数据进行聚类编批方面的研究。事实上,聚类算法作为机器学习的一个重要分支,计算量通常比较大,具有较高的时间复杂度,在计算资源有限的情况下并不太适合实时性要求较高且数据量较大的处理场景,典型如PDW数据处理;相反,若对EDW进行聚类,由于数据量得到了极大降低,可以保证实时性。
从聚类观点思考,每个辐射源相当于一个信号类,每个分选生成的EDW相当于对应辐射源的一次观测样本,每个EDW的参数个数相当于可供聚类选择的特征维数。由于EDW数据属于流式数据,因此对EDW进行聚类编批属于流式数据处理,必须设定聚类时间间隔TL,对各个聚类间隔内的EDW数据进行实时聚类以生成类EDW,然后再将多个聚类间隔间的类EDW数据进行关联和更新,以实现目标编批。
长时聚类关联的辐射源编批流程如图1所示,与原有编批流程相比,增加了EDW聚类相关的操作:当达到聚类时间间隔时,对当前聚类间隔内的所有分选EDW进行聚类,得到聚类结果(用类EDW表示);新生成的分选EDW与聚类结果进行关联,关联成功打上类标识;对于有类号标识的EDW直接编批输出,未关联成功的无类号的分选EDW按照原有流程进行航迹起始后编批输出。
图1 长时聚类关联的辐射源编批流程图
新增的各个模块及其功能简述如下:
(1)分选EDW聚类:对当前聚类间隔TL内的所有分选EDW进行频率和PRI二维聚类。
由于实际环境中脉宽测量不准的概率较大,所以没有引入脉宽进行三维聚类。采用DBSCAN密度聚类算法[3],形成当前间隔TL的EDW聚类结果,用ClusterNew表示。频率以M为单位,重复周期以μs为单位,计算欧几里得距离,以此得到聚类时任意两个EDW间的距离。每个EDW类记录的参数值包括该EDW类的载频最小、最大值,重复周期最小、最大值,脉宽最小、最大值,方位最小、最大值,类中包含的EDW个数等。
(2)EDW类关联:将当前EDW聚类结果ClusterNew与已有聚类结果ClusterOld进行关联。
对于ClusterNew中每个EDW类CluNewi,若其能够与ClusterOld中的某个类CluOldj关联成功,则更新CluOldj;否则将CluNewi加入到ClusterOld中。其中关联条件设置为:两个EDW类的载频最小值之差、最大值之差都小于预设阈值或者两个类的载频范围存在交集,且两个EDW类的重复周期范围也存在交集。
(3)EDW类合并:关联后的EDW类可能存在载频范围或重复周期范围参数重叠的情况,需要对EDW类进行合并。
(4)EDW与EDW类关联:将单个分选EDW与当前的EDW类进行关联,若关联成功,则打上类号,否则不做处理。
算法的“长时”聚类关联主要体现在两个方面:(1)单个聚类间隔设置为较长的时间,通常为单个扫描周期的几十倍,以积累足够多的EDW样本,提高聚类结果的准确率;(2)每个聚类间隔新生成的类EDW与已生成的类EDW进行关联,以实现更长时间维度上(多个聚类间隔)类EDW的关联和更新。
算法中涉及的分选EDW、目标EDW和类EDW的区别如表1所示。
表1 分选EDW、目标EDW与类EDW的区别
2 聚类参数设置
采用DBSCAN密度聚类算法设置邻域参数和密度参数。
2.1 邻域参数epsilon的设置
邻域参数epsilon的设置对聚类结果有较大影响:设置较大会将属于不同类的EDW聚到同一个类中;设置较小又会产生较多的类,将同属于一个类的EDW分割到多个类。
基于外场采集数据开展大量测试,获取了不同参数设置情形的仿真结果,限于篇幅,此处只给出一组典型数据的聚类结果。
图2、图3中每个不同颜色、不同图例的所有点为一个EDW类,当设置epsilon=20、MinPts=15时,PRI为1 000 ms附近的EDW只被聚成了一个类。图3为图2的放大版,可以发现1 000 μs附近的EDW应该属于两个类,因为一个真实的辐射源基本上不可能出现图3这样类似于“直角”形状的EDW分布情形,其更可能是由两个辐射源所形成的EDW分布情形。为此,减小epsilon参数值,设置epsilon=10、MinPts=10,聚类结果如图4、图5所示。可以看出,PRI为1 000 ms附近的EDW聚成了两个类,更符合实际情形,表明epsilon=10的设置能够提供更好的EDW聚类隔离度。经大量数据测试后,最终选定epsilon =10。
图2 周期1聚类结果(epsilon=20,MinPts=15)
图3 周期1聚类结果(epsilon=20,PRI为1 000 s附近)
图4 周期1聚类结果(epsilon=10,MinPts=10)
图5 周期1聚类结果(epsilon=10,PRI为1 000 s附近)
2.2 密度参数MinPts的设置
同样对外场采集数据进行测试,此处给出一组典型数据的测试结果,该段数据共有7 205个EDW,分别测试其在epsilon=10和不同MinPts参数下的聚类情形,测试中不再进行分时段的聚类,而是将所有EDW作为DBSCAN聚类的输入,只进行一次聚类,以更好地验证MinPts参数对聚类结果的影响。不同MinPts设置时的聚类个数和噪点个数如图6所示。
图6 MinPts设置对聚类个数和噪点个数的影响
可以看出,密度参数MinPts减小导致聚类个数增加、噪点个数减少,这是因为随着密度参数的减小,有更多的噪点能够被聚成类。事实上,若聚类间隔为TL,单个周期间隔为TS,截获概率为α,则密度参数MinPts应满足
(1)
综合上述考虑,经过大量数据测试,最终选取MinPts=10。
3 实验验证
在VxWorks环境中加入被动数据处理程序,在此基础上编程实现长时聚类关联的编批算法。采用数据回放模式,导入12组外场采集的真实数据进行辐射源编批实验。
图7显示了12组数据作为输入时,分别利用长时聚类关联编批算法和原有编批算法的辐射源编批结果,可以看出前者极大地降低了辐射源的编批数量。为了对该结果进行进一步验证,挑选第1组数据(即图7中的数据1)中部分辐射源的编批数据进行详细分析,结果如表2所示,可以看出单个辐射源的编批数量得到了降低。
表2 数据1部分辐射源编批数比较
图7 辐射源编批结果对比
选取数据1中一个典型辐射源(标识为辐射源A,对应于表2中序号为3的辐射源)的编批结果进行详细分析。该数据时长约4.5 h,共723个周期,并在第28个周期生成了第1次的聚类编批结果,因此只分析28周期之后的辐射源编批数据。辐射源参数为载频3 020~3 040 M,重复周期1 754 μs,采用聚类关联编批算法前后的编批情况如表3所示,其中采用传统编批分配了17个批号,采用聚类编批只分配了一个批号,与表2数据一致。
表3 辐射源A编批结果对比
对采用传统编批出现17个批号的原因分析如下:
(1)该辐射源并不是每个周期都被截获。例如表3中的批号3 023、3 024、3 025一直到批号3 117,都是该辐射源在不同时间段内被赋予的批号,在起始建批后,因为一段时间没有被截获到,从而被删除,再次起始建批时就被分配了与之前完全不同的批号,即原有编批算法在建批时并没有考虑到当前辐射源与历史编批辐射源的关联性。
(2)同一辐射源被分选成了两批或多批目标,典型如批号3 020和3 021,两批目标的存在时间有很大的重叠。经数据分析是因为两批目标的载频相差较大,超过了原有编批算法中EDW关联计算设置的载频容差,因而被认定为是两批不同的目标。
对于第1种情况,长时聚类关联编批算法在运行时会存在1个EDW类缓存,该缓存中存储了算法自运行开始期间就存在的EDW类,且该缓存每个聚类间隔都会更新;即使某个辐射源不是一直截获,但其每次建批时都要与已有的EDW类进行关联,关联成功则赋予该类号对应的初始批号,避免了同一辐射源不同时间段具有不同批号的问题。
对于第2种情况,DBSCAN算法通过密度聚类实现EDW间的关联,其实质是通过数据自身的分布情况进行分类识别,不再受固定“信号参数容差”的限制,能够更好地识别属于同一个辐射源的EDW,此例辐射源A载频相差20 M仍能聚为一类。这种特性也对重复周期有效,例如相控阵雷达常用的反侦察波形措施之一就是在预设的PRI上进行几微秒左右的抖动,这种情形若采用“容差”,则EDW关联失败的概率较大,而采用本文的密度聚类及参数设置仍然可以聚为一类。
4 结束语
本文提出一种基于长时聚类关联的辐射源编批方法,基于真实采集数据的回放实验表明其对改善信号增批率效果显著。该算法能够大幅降低辐射源目标批数的原因主要是以下两点:
(1)长时聚类关联编批算法在编批时考虑了与历史编批目标的关联,避免了同一辐射源因截获不连续导致的不同时刻具有不同批号的问题;
(2)相对于基于“信号参数容差”的EDW关联算法,聚类算法通过更为准确的EDW密度聚类,降低了同一个目标分配多个不同批号的概率。
对于能够实现频率快速捷变的有源相控阵雷达辐射源,长时关联聚类编批算法在捷变频模式作为先验信息输入的情形下,能够更好地解决此类复杂辐射源的编批问题,此时须结合频率捷变的跳变幅度等信息对聚类的邻域参数epsilon进行优化设置,这也是后续研究方向。