APP下载

密度熵联合密度峰值聚类的雷达信号分选

2022-07-15于子川夏厚培

电光与控制 2022年7期
关键词:中心点分配阈值

于子川, 夏厚培

(中国船舶集团有限公司第八研究院,南京 211000)

0 引言

雷达辐射源识别是现代电子对抗中的重要一环,雷达信号分选的任务就是从诸多交叠的脉冲流中分选出所需信号,而新体制雷达和新信号调制方式使电磁空间变得更加复杂多变,雷达脉冲数量也大大增加,这给传统的雷达信号分选方法带来了极大的挑战[1]。

雷达信号分选处理的是以脉冲描述字(PDW)形式存在的脉冲流,PDW的主要参数一般有脉冲到达角(DOA)、载波频率(RF)、脉宽(PW)、幅度(PA)、到达时间(TOA)。大致有预分选和主分选两步:预分选主要是降低脉冲流密度,以便后续分选;主分选主要是利用前、后脉冲之间的脉冲重复间隔(PRI)来进行分选。由于脉冲幅度参数存在很大的不稳定性,多参数预分选主要利用DOA,RF,PW这3种参数[2]。

聚类分析是数据挖掘领域的热门研究内容,引入到雷达信号预分选中,可以提高分选效率与准确率[3]。

在聚类分选中,分割聚类(如K-means算法等)得到了广泛的应用,但存在诸多缺点,如需要聚类数目的先验知识、对初始聚类中心和噪声点很敏感、难以解决非凸型簇等[4-6]。

2014年,RODRIGUEZ等[7]提出了密度峰值(Density peak,D-peak)聚类算法,该算法运用了层次聚类和密度聚类思想,能发现特殊形状的簇,使用简易快捷,参数简单唯一。

本文将密度峰值聚类算法引入到雷达信号分选中并进行改进:结合数据场理论中势熵的概念对密度峰值聚类的参数dc进行优化选取,提高了算法的普适性;对局部密度和邻近距离进行归一化处理后,使用新的参数对二者进行统一,通过设计评价阈值函数自适应选取聚类中心点;对原始算法的层次聚类合并准则进行了改进,在层次分配的基础上借鉴密度聚类,在存在密度连接的情况下将数据点分类,改善了原算法中存在的连带分配错误问题。

1 基本概念

密度峰值聚类的基本思想是:当一个点周围的密度为最大,且距离其他密度较大的数据点较远时,其可以被选取为聚类中心点。该算法基于很直观的假设:聚类中心点本身的密度大,即被密度不超过它的邻近点包围;聚类中心点与比它局部密度更大的点之间的距离较远。

设数据集S={xi},i∈N,对于数据集中的任意点xi,D-peak算法用两个量进行度量:1) 数据点xi的局部密度ρi;2) 与比xi的密度更高的点的邻近距离δi。

局部密度的计算对离散数据采取截断核,对连续数据一般采取高斯核,使用高斯核时的定义为

(1)

式中:di j表示数据点xi与xj(j∈N),之间的某种距离;截断距离dc>0,是局部密度计算中的重要参数。D-peak算法中,dc是根据经验确定的,要求数据点dc范围内的平均邻近点数占总数据点的1%~2%。

邻近距离δi的定义是数据点xi与比它的密度更大的点之间的最小距离,即

(2)

至此,对于每一个数据集S中的数据,都可以得到二元对(ρi,δi),将其在平面中画出即为决策图。决策图中ρ值和δ值都较大的点,可选取为聚类中心点;ρ值小而δ值大的点,很可能是离群点。

确定聚类中心点和聚类数目后,使用层次聚类的思想,根据局部密度ρ值的大小遍历归类。各簇聚类完成后,通过计算各簇的平均局部密度作为界限,来区分簇核心和簇边缘。

然而,传统的密度峰值算法存在很多缺点:重要参数截断距离dc的确定依靠经验值,而聚类效果对dc很敏感;虽然通过决策图清楚展现了数据点密度距离关系,但聚类中心和聚类数目还是靠人工选取,增大了算法的不稳定性;此外,其分配、合并规则比较简陋,可能出现分配错误的问题。

2 密度熵联合D-Peak的雷达信号分选算法

2.1 联合势熵的截断距离优化

选取高斯核函数对局部密度进行计算,截断距离dc的影响很大。若dc的值过小,则几乎所有点的局部密度近乎零;若dc过大,那么局部密度相当于n个变化缓慢的基函数的叠加,都没有区分效果。

在诸多学者研究的数据场聚类中[8-10],也采取高斯核函数来计算数据场势函数,二者形式上相似。对于系统,其不确定性可以用熵来进行度量[11]。自然,可以用熵来描述不同截断距离对数据整体的局部密度情况造成的影响,进而可以通过熵来优化截断距离,称之为密度熵。

对于含n个数据点的数据集S,其密度熵的定义为

(3)

式中,Z是标准化因子。将式(1)代入式(3)中,得到密度熵关于截断距离的一元函数,通过优化密度熵的最小值,得到所需要的最优截断距离。

2.2 聚类中心自动选取

使用二维决策图判断聚类中心存在主观性,需要设计选取规则自动判断聚类中心。局部密度和邻近距离的数值差距过大,采取极差归一化处理,即

(4)

对于决策函数的决策区域,需要进行上限确定。切比雪夫不等式仅使用方差和均值,适应任意完全分布。对于随机变量X,已知数学期望E(X)=μ,方差D(X)=σ2,则下列不等式成立,即

(5)

由式(5)可知,可以在未知数据分布的情况下,设定一个阈值上限。对于密度峰值聚类的决策图,聚类中心的局部密度呈现阶跃式离散点,非中心则呈密集连接聚点。因此,聚类中心的确定可以利用切比雪夫确定阈值上限的特点。

王万良等[12]改进了基于切比雪夫不等式的阈值上限判断,发现切比雪夫不等式对归一化密度上限确定较为有效,而对归一化距离的效果不是很好,因此,只设置归一化局部密度的上限,即

(6)

经过实验调整的结果,ε取2效果较好。

而对于归一化邻近距离,很明显的事实是,阈值下界必须大于其标准差,即

(7)

在聚类中心的选取中,如果只按照局部密度和邻近距离进行阈值线性判定,很容易多判或漏判。聚类中心点可能有以下多种情况:局部密度和邻近距离都完全超过线性阈值;其中一个参数明显超过线性阈值,而另一个在阈值附近;两个都在阈值附近,但相较于大量非中心点呈明显分离状态。

设计新变量进行阈值选取,即

(8)

显然,γ值越大,越有可能是聚类中心。将γ进行降序排列,以γ值为纵轴,序号为横轴。可以发现,从非聚类中心到聚类中心之间γ值有明显跃升。且γ值的分布呈现幂次定律,即lgγ近似呈直线,其斜率依赖于数据维度,如图1所示。

图1 对数化γ值Fig.1 Logarithmic gamma

由此,综合考虑局部密度阈值和邻近距离阈值,可以设计决策函数规则为

γ=ρ*δ*≥(μ(ρ*)+εσ(δ*))σ(δ*)

(9)

对所有数据点进行判断,若数据点符合该规则,直接判定为聚类中心点,完成聚类中心点自动选取。

2.3 改进的分配准则

如果数据分布不均匀,存在某簇边缘点与不同簇密度峰值点间距较近,而距相同簇内的密度峰值点间距较远的情况,很容易造成分配错误[13]。为解决该问题,本文基于密度聚类改进了分配规则。

首先,基于局部密度的定义引入邻近度概念,以便更好地衡量两个数据点的相似程度,其算式为

(10)

只有在3dc范围内的数据点才纳入邻近度的计算,是为了减少较远距离点的干扰,剔除无效邻近关系。邻近度的值是全局统一的,该点所在簇的数据点密集程度不会影响本身邻近度的计算,而这无法准确地描述数据间的邻近关系。在距离相同的情况下,密集簇的数据邻近程度应该比稀疏簇低。由此,引入相对邻近度概念,其算式为

(11)

在此基础上,再定义互邻近度为

Ai j=di-jdj-i

(12)

互邻近度可以更好地反映不同簇内数据之间的相似程度,根据互邻近度来进行数据分配。完成聚类中心选取后,将聚类中心点3dc内的数据点分配给对应的类中,然后对每个已分配点寻找其最高互邻近度的未分配点,并将其分配到对应的类中,不断迭代;对互邻近度为0的未分配数据点,则按照一般分配规则进行分配。

2.4 算法流程

算法流程如下:

1) 数据归一化;

2) 计算数据的距离矩阵,根据式(3)的密度熵优化截断距离,然后根据式(1)、式(2)、式(4)计算局部密度ρi和邻近距离δi;

3) 计算决策图参考值γ,根据式(6)~(9)选取聚类中心点;

4) 根据式(10)~(12)计算互邻近度;

5) 分配聚类中心点3dc内的数据点;

6) 找到所有已分配点对应的互邻近度最高且不为0的未分配点,分配给相应类,若为0,则不参与分配,不断迭代至无对应可分配点;

7) 对于剩余的未分配点,按照普通密度峰值算法分配规则分配。

3 仿真实验分析

为了验证所改进密度峰值聚类算法的有效性,进行仿真实验。实验采用的4部雷达的具体参数见表1,同时模拟误差并添加噪声。

表1 4部雷达参数表Table 1 Parameters of four radars

对4部雷达信号和噪声信号进行标准归一化处理,得到如图2所示的混合数据三维属性坐标图。

图2 归一化数据三维坐标图Fig.2 3D coordinate chart of normalized data

对归一化数据计算局部密度、邻近距离以及γ值,采取提出的聚类中心判断标准进行综合判断,在决策图中选定聚类中心点(见图3)。

图3 决策图中选定的聚类中心点Fig.3 Selected clustering centers in decision-making graph

选定聚类中心后,采取本文算法的分配规则得到最后的聚类结果(见图4)。

图4 最终聚类结果Fig.4 Final clustering results

从图4的聚类结果图中可以看到,本文算法面对交叠情况比较严重的待分选雷达信号,自动完成了聚类数目和中心点的准确确定,较好地排除了噪声孤立点,并最终达到了比较良好的聚类效果。同时可以发现,分选结果中,信号参数交叠的部分容易出现分选错误。

定义分选正确率为成功分选的总脉冲数与总脉冲数之比并进行仿真实验,最终结果见表2。

表2 分选正确率Table 2 Sorting accuracy

将同样的待分选雷达信号使用K-means聚类方法、DBSCAN聚类方法、普通D-peak算法以及本文算法进行分选,结果见表3。

表3 本文算法与其他聚类算法比较Table 3 Comparison of proposed algorithm with other clustering algorithms %

支持向量机(SVM)方法也常用于雷达信号预分选中,同样选取{RF,DOA,PW}三维特征,分别使用线性核和RBF核,与本文算法进行比较,结果见表4。

通过表2和表3可以发现:本文算法的分选正确率相较于以上3种聚类算法有了明显的提升。由表4可知,相较于基于线性核和RBF核模型的SVM方法,本文算法的识别正确率较高。

表4 本文算法与SVM算法的正确率比较Table 4 Comparison of proposed algorithm with SVM algorithms %

4 结束语

本文将密度峰值聚类引入雷达信号分选过程,提出了密度熵联合密度峰值聚类的信号分选方法。通过仿真实验验证,新方法有以下优势:无需人工提供先验数目。并设置聚类中心点,改进的分配规则降低了形状不规则簇的错误分配概率,提高了识别正确率。对于参数变化范围和形式复杂多样的新体制雷达,本文算法未必能很好地进行识别,未来有必要进一步寻找更适宜的聚类算法,以面对愈加复杂的雷达信号分选问题。

猜你喜欢

中心点分配阈值
土石坝坝体失稳破坏降水阈值的确定方法
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
一种基于标准差的K-medoids聚类算法
Scratch 3.9更新了什么?
应答器THR和TFFR分配及SIL等级探讨
如何设置造型中心点?
遗产的分配
一种分配十分不均的财富
基于迟滞比较器的双阈值稳压供电控制电路
寻找视觉中心点