基于改进集对分析聚类的雷达信号分选方法
2014-06-19黎蓉刘以安王刚
黎蓉 刘以安 王刚
摘 要: 在高密度复杂的雷达信号环境下,针对使用集对分析进行信号分选时,分选结果易受联系度取值影响的问题,提出了一种实时稳定有效的信号分选方法。通过采用集对分析对脉冲流进行预分选,再结合高维数据聚类的方法实现分选效果。经过仿真对比分析,实验结果表明该方法在含有噪声脉冲的情况下仍具有较高的识别率。
关键词: 信号分选; 集对分析; 高维数据; 仿真分析
中图分类号: TN957.51?34 文献标识码: A 文章编号: 1004?373X(2014)09?0008?04
0 引 言
在现代电子战环境中,随着雷达技术的快速发展,新体制雷达的信号形式更加复杂化。在这种环境下进行雷达信号分选将面临着更多的挑战。传统的雷达信号分选大都是基于PRI参数进行脉冲分选[1],该类方法耗时长,在脉冲丢失的情况下分选效果变差,不适于处理大量的复杂数据。面对当今复杂的信号环境,一些学者纷纷提出了基于多参数聚类的信号分选方法,如K?means聚类、支持向量聚类和蚁群聚类等算法,文献[2]通过直方图峰值来选取初始质心,以减少K?means算法的迭代次数,该算法在进行直方图峰值统计时,若使用较低的参数维数,其分选正确率不高,若使用较高的参数维数,其统计算法的计算复杂度较高;支持向量聚类算法的聚类结果易受核函数参数[q]和惩罚因子[C]的影响,且计算复杂度高,文献[3]采用的分段聚类和调节参数[q]和[C]的做法取得了较好的分选效果,但是当信号密集复杂不均时,算法耗时长,计算效率有所下降;文献[4]使用蚁群算法得到初始质心和聚类数目,再进行K?means聚类,该方法的蚁群聚类算法参数设置困难,若选取不当,易陷入局部最优;文献[5]提出了基于集对分析[6](Set Pair Analysis,SPA)的分选方法,集对分析能消除量纲影响,使用联系度来表征两个脉冲参数的相似度,采用该方法进行信号分选具有数据处理速度快,识别率高的优点,有效解决了耗时长的问题,但是如果联系度阈值取值不当,易出现错选和增批的现象。
针对上述问题,本文提出了一种改进的集对分析分选方法。该方法先用集对分析稀释脉冲流,以提高计算速度,再用集对分析和高维数据聚类方法相结合的方法,从维度相似性和空间相似性的角度来确定相似系数。实验对该方法进行了验证,并与其他算法进行对比分析,取得了较好的分选效果。
1 集对分析概述
集对分析是一种不确定性分析方法,该方法认为事物的同一性、差异性和对立性是互相联系、互相影响、互相制约的,在一定条件下互相转化,并用同异反联系度来描述,其表达式为:
[μ=a+bi+cj] (1)
式中:[a]表示同一度;[b]表示差异度;[c]表示对立度。[i]表示差异标记符号或相应系数,取值范围为[-1,1];[j]表示对立标记符号或相应系数,规定取值为-1。式(1)中,[a],[b],[c]满足归一化条件,即[a+b+c=1。]
集对联系度刻画了两个集合之间的关系,当[i]值增大时,[μ]随之增大,表明两个集合趋近于相同;当[i]值减小时,[μ]随之减小,表明两个集合趋于相反。对于雷达信号分选来说,期望两个集合趋于相同,因此将[i]取值为1。
由文献[5]和文献[6]可知,对于满足[s≤t]的数对[(s,t)]的联系度可表示为:
[μ=st+st(t2-1)i+1-stt2-1j] (2)
由式(2)可知[t]不能取值1,经分析文献[5]可知,在计算一阶对立区间[[1t,t]]的占空比时,没有考虑[t]为1的情况,因此在进行信号分选时直接使用式(2)是不恰当的,在此将占空比的计算式纠正为[p=st+1t2+1,]使式(2)适于处理任何满足[0≤s≤t]条件的数对[(s,t)],即:
[μ=st+t-st(t2+1)i+1-st+1t2+1j] (3)
在进行信号分选时,通常采用对初始数据进行归一化处理,以消除量纲的影响,然后利用欧拉公式来判断两个脉冲是否属于同一类的方法,然而集对联系度的大小可以反映两个脉冲的匹配度,因此可以用集对联系度来替代上述两个步骤,以减少计算量。
2 改进集对分析聚类的雷达信号分选方法
在雷达信号分选中,使用脉冲描述符(PDW)来表征一个脉冲。一个PDW所包含的特征参数值有脉冲到达时间(TOA)、脉冲到达角(DOA)、脉宽(PW)、载频(RF)和脉幅(PA)等。由于PA具有不确定性,由TOA计算所得到的脉冲重复间隔(PRI)又具有多变性,都不适于聚类。因此,通常采用DOA、PW和RF来进行雷达信号分选。
在高密度的信号环境下,要实现快速分选,算法复杂度应能达到[O(n)]的水平,现有的一些信号分选方法通常不能满足这个条件,而本文提出的改进算法只需要遍历一次全脉冲序列,然后对遍历结果进行优化处理,整个算法在计算复杂度方面能接近[O(n)]的水平,因而具有较快的计算速度。
本文相对于文献[5]改进的地方有:改进了集对分析的计算表达式,使之满足适于分选的脉冲数据;使用集对分析进行信号分选时,聚类质心会动态增加,在信号环境复杂,含有噪声的情况下,计算所得的聚类质心数目会比信号环境简单的情况要多。文献[5]算法是计算当前脉冲与所有聚类质心的带权值联系度,并选择联系度最大的质心作为当前脉冲的同类质心,然而随着聚类质心的增加,该算法的计算时间会随之变长,通过下文的仿真实验便可看出。此外该算法使用了权值进行计算,通常对带有权值的计算式,若权值设置不合理,对聚类结果会产生一定的影响。改进后的算法没有设置权值,对满足联系度大于阈值的脉冲,认为是属于同一类,这样避免了与所有质心的比较,但要避免不出现错选的情况,应使阈值取值偏大,尽管这样会使聚类质心增加,但从整体角度考虑,算法的计算时间会比文献[5]短;对于聚类质心增加的问题,进行优化处理即可。
具体分选步骤如下:
(1) 设定脉冲描述符特征参数的阈值[λDOA、][λPW]和[λRF](取值范围为(-1,1]),阈值的选取可以参考脉冲描述符每个特征参数的实际变化范围,如载频的捷变范围为20%,则可取[λRF=0.8。]取雷达脉冲的脉冲数最小值为[μmin](通常取值为5)。
(2) 令[Pk={DOAk,PWk,RFk}]表示第[k]个脉冲描述符,[Rn={DOAn,PWn,RFn}]表示第[n]类脉冲的聚类质心,将第一个脉冲描述字[P1]作为第一类脉冲的聚类质心,即[R1=P1,]取下一个脉冲描述字[Pk(k=2)。]
(3) 将[Pk]与已聚类的脉冲类[Ri]的对应参数组成集对,由于DOA的测量误差主要为绝对误差且取值范围为[[0,360)],因此将DOA集对改为[(360,360-DOAi-DOAk)。]根据式(3)计算联系度,并与相应的阈值进行比较,即[(μ DOA>λDOA)& (μPW>λPW)& (μRF>λRF),]如果该式为真,则将脉冲[Pk]归于[Ri]类,同时对[Ri]类特征值进行更新,更新表达式如式(4):
[xn=xn-1*count+xcount+1] (4)
式中:[x]表示脉冲[Pk]的特征值;[xn-1]表示更新前的[Ri]特征值;[xn]表示更新后的[Ri]特征值;[count]为已聚类[Ri]脉冲数;如果为假,则将该脉冲记为一个新脉冲类。
(4) 取脉冲流中的下一个脉冲,重复步骤(2)~(3)的操作,直到处理完所有脉冲。
(5) 统计每类脉冲的脉冲数,如果其脉冲数小于给定值[μmin,]则认为该类脉冲为非雷达脉冲,将其从脉冲类集合中删除。
(6) 经过上述步骤,能将原脉冲流进行很大程度地稀释。如果阈值[λ]选取不当,易造成错选或增批的现象,出现错选的情况是可以避免的,因此针对增批的情况,需对预分选结果进行进一步聚类。
令脉冲类集合[U={x1,x2,…,xn}],其中[xi]对应于上述的[Ri]。此时,对于原问题的聚类,转化为对数据量较少的三维数据[U]的聚类。由于集合[U]是维度较低的数值型高维数据,对高维数据进行聚类需要考虑数据对象间的相似问题,而相似性度量方法的选取会直接影响数据聚类的结果。因此,以下重点讨论针对[U]聚类的相似度函数设计。
对于高维数据的聚类,文献[7]提出了如下相似度函数:
[Hsim(xi,xj)=k=1m11+xik-xjkd] (5)
式中[d]为明考斯基距离公式,即:
[dmk(xi,xj)=t=1mxit-xjtkk] (6)
式中:[m]表示维数;当[k=1]时,[d]为曼哈顿距离;当[k=2]时,[d]为欧几里德距离。[Hsim]函数表明两个数据对象对应的属性维度的绝对差值越小,就越相似。该计算方法具有统计性质,对不经归一化处理的数值型数据,直接使用这种计算方式易出现大数据差值掩盖小数据差值的现象,影响分类结果。由于[U]是经集对分析方法获得的,再次使用该方法作用于[U]已没有太大意义,考虑到[Hsim]函数是从距离和的角度来考虑数据的空间相似性,因此可以将集对分析与[Hsim]函数相结合,将优化处理部分的相似度函数设为:
[rij=1-(1-μij)(1-Hsimij)] (7)
其中[μij=μDOA*μPW*μRF,]是[xi]和[xj]对应维度联系度的乘积。由[μij]和[Hsimij]可知,[rij]是从属性相似性和空间相似性来度量两类数据的相似性,即从局部与整体两个方面来考虑对不同类脉冲进行分类。[rij]越接近1,说明[xi]和[xj]越相似;反之,越不可能相似。[rij]的计算不需要依赖先验知识,具有较好的可信度。
不失一般性,[r]矩阵也需要采用一个门限值截取,在脉冲出现重叠的情况下,使用不同门限值截取[r]矩阵会得到不同聚类结果,因此需要对[r]进行进一步的处理。
在图像处理中,通常使用高斯滤波器进行减噪处理,对于矩阵[r,]希望消除[r]中值比较小的元素,而保留值较大的元素。在此,使用式(8)对[r]进行优化。
[Sij=exp-ri-rj22σ2] (8)
式中[ri]和[rj]为[r]矩阵的行向量。高斯宽度[σ]越大,处理后的分类界限越模糊,这说明不同高斯宽度[σ]的取值对优化结果会有影响,考虑到[r]矩阵所有元素的取值介于-1~1之间,因此将[σ]取值0.1。最后,使用门限值[ε]对矩阵[S]进行截取,[ε]取值1e-7便可实现即使出现脉冲重叠的情况,也可获得较好的分选效果,截取原则为:
[sij=1, sij≥ε0, sij<ε] (9)
3 仿真分析
为了验证改进的集对分析聚类算法的有效性,实验参考文献[5]SPA分选算法的仿真数据,在不含噪声脉冲和含有噪声脉冲的情况下,比较与SPA算法的性能。模拟12部雷达脉冲信号,设定到达方位角的测量精度为3°,载频的捷变范围为10%,重频的捷变范围为20%、抖动范围为20%,其他参数的测量精度为1%。各雷达脉冲参数的中心值见表1。
表1 12部雷达的参数设置
[序号\&DOA /(°)\&PW /μs\&RF /MHz\&RF类型\&PRI /ms\&PRI类型\&1\&45.0\&8\&800\&固定\&2\&固定\&2\&46.2\&5.6\&850\&捷变\&8\&抖动\&3\&44.3\&10\&700\&固定\&3\&捷变\&4\&47.8\&30\&750\&捷变\&35\&抖动\&5\&67.2\&4.5\&700\&捷变\&1.8\&固定\&6\&67.8\&45\&750\&捷变\&4\&捷变\&7\&68.4\&26\&800\&捷变\&7.5\&捷变\&8\&135\&60\&750\&捷变\&45\&固定\&9\&136\&45\&850\&捷变\&6\&抖动\&10\&120\&30\&700\&捷变\&5.5\&抖动\&11\&165\&53\&750\&捷变\&28\&捷变\&12\&55\&37\&800\&捷变\&3.9\&捷变\&]
实验共产生10万个脉冲,对含有噪声脉冲的部分,随机产生500个噪声脉冲。对脉冲按到达时间顺序进行混叠,给每个特征值加上随机值,对同时到达的脉冲进行丢失处理。实验初始数据如图1所示。取[λDOA]=0.9,[λPW]=0.8,以取不同RF阈值为例进行算法性能分析。由于阈值取值偏小时易出现错选,导致识别率下降,因此将RF阈值范围拟设为[0.7,0.98]。实验结果如图2~图4所示。
图1 初始数据
由图2可知,两种算法的分选正确率在不含噪声和含有噪声的情况下均较高,在含有噪声的情况下,分选正确率会略有降低。由图3可看出,SPA分选算法在不含噪声和含有噪声的情况下,其聚类结果均表现出不稳定性,易出现增批现象。阈值增大时,分选的脉冲种类增多,由于改进算法对这一聚类结果进行了优化处理,因此聚类结果相对较稳定。
图2 载频阈值与分选正确率的关系
图3 载频阈值与聚类数目的关系
图4 载频阈值与算法耗时的关系
由图4可知,在数据量较大时,改进算法执行时间相对较短,而SPA算法则依情况不同,表现出较大差异。RF阈值增大时,两种算法分选所需时间均呈现出递增的趋势,且在不含噪声和含有噪声的情况下,SPA算法均比改进算法增长的快。
此外,本文还将改进算法与K?means算法进行了对比,考虑到K?means算法需要预先确定聚类质心和聚类数目,实验将改进算法的结果作为K?means算法的输入,对比分析K?means聚类算法在已知输入数据时的算法性能。实验使用上述雷达参数产生5 000个脉冲序列,在不含噪声的情况下仿真100次,由表2的结果可看出,在信号种类多和信号数量较大的情况下,K?means算法相较改进算法,聚类效果较差。
表2 改进算法与K?means聚类算法的对比结果
[算法\&平均计算时间 /s\&分选正确率 /%\&K?Means算法\&26.906\&66.24\&改进算法\&0.914\&99.93\&]
由仿真实验分析可知,本文算法相对于SPA算法有较大改进,与K?means聚类算法相比,具有更高的可靠性,在出现脉冲丢失和含有噪声的情况下,对一些体制较复杂的未知雷达具有较好的实时分选效果。
4 结 语
基于改进集对分析聚类的雷达信号分选方法不需要预先设定分类数目就能对未知辐射源脉冲信号种类进行较好的分选,计算简单,适于快速处理大规模数据,易于在硬件上实现,可为其他聚类算法提供参考。在信号分选过程中,可根据脉冲描述符参数的变化范围来确定阈值[λ],对于如何尽量控制[λ]的选取数量有待进一步的研究。
参考文献
[1] NISHINUCHI K, KOBAYASHI M. Improved algorithm for estimating pulse repetition intervals [J]. IEEE Transactions on Aerospace and Electronic Systems, 2000, 36(2): 407?421.
[2] 陈利虎,张尔扬,沈荣骏.基于优化初始聚类中心K?means算法的跳频信号分选[J].国防科技大学学报,2009,31(2):70?75.
[3] 王世强,张登福,毕笃彦,等.基于快速支持向量聚类和相似熵的多参雷达信号分选方法[J].电子与信息学报,2011,33(11):2735?2741.
[4] 赵贵喜,骆鲁秦,陈彬.基于蚁群算法的K?means聚类雷达信号分选算法[J].雷达科学与技术,2009,7(2):142?146.
[5] 张秀辉,刘以安,曹宁生,等.基于集对分析的雷达信号分选算法[J].现代雷达,2010,32(2):35?37.
[6] 赵克勤.基于集对分析的大小关系刻划及应用[J].有色冶金设计与研究,1996,17(3):59?62.
[7] 杨风召.高维数据挖掘技术研究[M].南京:东南大学出版社,2007.
[8] ZHAO Ke?qin. Set pair analysis method and its preliminary application [M]. Hangzhou: Zhejiang Science and Technology Press, 2000.1
实验共产生10万个脉冲,对含有噪声脉冲的部分,随机产生500个噪声脉冲。对脉冲按到达时间顺序进行混叠,给每个特征值加上随机值,对同时到达的脉冲进行丢失处理。实验初始数据如图1所示。取[λDOA]=0.9,[λPW]=0.8,以取不同RF阈值为例进行算法性能分析。由于阈值取值偏小时易出现错选,导致识别率下降,因此将RF阈值范围拟设为[0.7,0.98]。实验结果如图2~图4所示。
图1 初始数据
由图2可知,两种算法的分选正确率在不含噪声和含有噪声的情况下均较高,在含有噪声的情况下,分选正确率会略有降低。由图3可看出,SPA分选算法在不含噪声和含有噪声的情况下,其聚类结果均表现出不稳定性,易出现增批现象。阈值增大时,分选的脉冲种类增多,由于改进算法对这一聚类结果进行了优化处理,因此聚类结果相对较稳定。
图2 载频阈值与分选正确率的关系
图3 载频阈值与聚类数目的关系
图4 载频阈值与算法耗时的关系
由图4可知,在数据量较大时,改进算法执行时间相对较短,而SPA算法则依情况不同,表现出较大差异。RF阈值增大时,两种算法分选所需时间均呈现出递增的趋势,且在不含噪声和含有噪声的情况下,SPA算法均比改进算法增长的快。
此外,本文还将改进算法与K?means算法进行了对比,考虑到K?means算法需要预先确定聚类质心和聚类数目,实验将改进算法的结果作为K?means算法的输入,对比分析K?means聚类算法在已知输入数据时的算法性能。实验使用上述雷达参数产生5 000个脉冲序列,在不含噪声的情况下仿真100次,由表2的结果可看出,在信号种类多和信号数量较大的情况下,K?means算法相较改进算法,聚类效果较差。
表2 改进算法与K?means聚类算法的对比结果
[算法\&平均计算时间 /s\&分选正确率 /%\&K?Means算法\&26.906\&66.24\&改进算法\&0.914\&99.93\&]
由仿真实验分析可知,本文算法相对于SPA算法有较大改进,与K?means聚类算法相比,具有更高的可靠性,在出现脉冲丢失和含有噪声的情况下,对一些体制较复杂的未知雷达具有较好的实时分选效果。
4 结 语
基于改进集对分析聚类的雷达信号分选方法不需要预先设定分类数目就能对未知辐射源脉冲信号种类进行较好的分选,计算简单,适于快速处理大规模数据,易于在硬件上实现,可为其他聚类算法提供参考。在信号分选过程中,可根据脉冲描述符参数的变化范围来确定阈值[λ],对于如何尽量控制[λ]的选取数量有待进一步的研究。
参考文献
[1] NISHINUCHI K, KOBAYASHI M. Improved algorithm for estimating pulse repetition intervals [J]. IEEE Transactions on Aerospace and Electronic Systems, 2000, 36(2): 407?421.
[2] 陈利虎,张尔扬,沈荣骏.基于优化初始聚类中心K?means算法的跳频信号分选[J].国防科技大学学报,2009,31(2):70?75.
[3] 王世强,张登福,毕笃彦,等.基于快速支持向量聚类和相似熵的多参雷达信号分选方法[J].电子与信息学报,2011,33(11):2735?2741.
[4] 赵贵喜,骆鲁秦,陈彬.基于蚁群算法的K?means聚类雷达信号分选算法[J].雷达科学与技术,2009,7(2):142?146.
[5] 张秀辉,刘以安,曹宁生,等.基于集对分析的雷达信号分选算法[J].现代雷达,2010,32(2):35?37.
[6] 赵克勤.基于集对分析的大小关系刻划及应用[J].有色冶金设计与研究,1996,17(3):59?62.
[7] 杨风召.高维数据挖掘技术研究[M].南京:东南大学出版社,2007.
[8] ZHAO Ke?qin. Set pair analysis method and its preliminary application [M]. Hangzhou: Zhejiang Science and Technology Press, 2000.1
实验共产生10万个脉冲,对含有噪声脉冲的部分,随机产生500个噪声脉冲。对脉冲按到达时间顺序进行混叠,给每个特征值加上随机值,对同时到达的脉冲进行丢失处理。实验初始数据如图1所示。取[λDOA]=0.9,[λPW]=0.8,以取不同RF阈值为例进行算法性能分析。由于阈值取值偏小时易出现错选,导致识别率下降,因此将RF阈值范围拟设为[0.7,0.98]。实验结果如图2~图4所示。
图1 初始数据
由图2可知,两种算法的分选正确率在不含噪声和含有噪声的情况下均较高,在含有噪声的情况下,分选正确率会略有降低。由图3可看出,SPA分选算法在不含噪声和含有噪声的情况下,其聚类结果均表现出不稳定性,易出现增批现象。阈值增大时,分选的脉冲种类增多,由于改进算法对这一聚类结果进行了优化处理,因此聚类结果相对较稳定。
图2 载频阈值与分选正确率的关系
图3 载频阈值与聚类数目的关系
图4 载频阈值与算法耗时的关系
由图4可知,在数据量较大时,改进算法执行时间相对较短,而SPA算法则依情况不同,表现出较大差异。RF阈值增大时,两种算法分选所需时间均呈现出递增的趋势,且在不含噪声和含有噪声的情况下,SPA算法均比改进算法增长的快。
此外,本文还将改进算法与K?means算法进行了对比,考虑到K?means算法需要预先确定聚类质心和聚类数目,实验将改进算法的结果作为K?means算法的输入,对比分析K?means聚类算法在已知输入数据时的算法性能。实验使用上述雷达参数产生5 000个脉冲序列,在不含噪声的情况下仿真100次,由表2的结果可看出,在信号种类多和信号数量较大的情况下,K?means算法相较改进算法,聚类效果较差。
表2 改进算法与K?means聚类算法的对比结果
[算法\&平均计算时间 /s\&分选正确率 /%\&K?Means算法\&26.906\&66.24\&改进算法\&0.914\&99.93\&]
由仿真实验分析可知,本文算法相对于SPA算法有较大改进,与K?means聚类算法相比,具有更高的可靠性,在出现脉冲丢失和含有噪声的情况下,对一些体制较复杂的未知雷达具有较好的实时分选效果。
4 结 语
基于改进集对分析聚类的雷达信号分选方法不需要预先设定分类数目就能对未知辐射源脉冲信号种类进行较好的分选,计算简单,适于快速处理大规模数据,易于在硬件上实现,可为其他聚类算法提供参考。在信号分选过程中,可根据脉冲描述符参数的变化范围来确定阈值[λ],对于如何尽量控制[λ]的选取数量有待进一步的研究。
参考文献
[1] NISHINUCHI K, KOBAYASHI M. Improved algorithm for estimating pulse repetition intervals [J]. IEEE Transactions on Aerospace and Electronic Systems, 2000, 36(2): 407?421.
[2] 陈利虎,张尔扬,沈荣骏.基于优化初始聚类中心K?means算法的跳频信号分选[J].国防科技大学学报,2009,31(2):70?75.
[3] 王世强,张登福,毕笃彦,等.基于快速支持向量聚类和相似熵的多参雷达信号分选方法[J].电子与信息学报,2011,33(11):2735?2741.
[4] 赵贵喜,骆鲁秦,陈彬.基于蚁群算法的K?means聚类雷达信号分选算法[J].雷达科学与技术,2009,7(2):142?146.
[5] 张秀辉,刘以安,曹宁生,等.基于集对分析的雷达信号分选算法[J].现代雷达,2010,32(2):35?37.
[6] 赵克勤.基于集对分析的大小关系刻划及应用[J].有色冶金设计与研究,1996,17(3):59?62.
[7] 杨风召.高维数据挖掘技术研究[M].南京:东南大学出版社,2007.
[8] ZHAO Ke?qin. Set pair analysis method and its preliminary application [M]. Hangzhou: Zhejiang Science and Technology Press, 2000.1