APP下载

一种基于网格划分数据场的雷达信号分选方法*

2021-11-02刘峻臣何航峰

电讯技术 2021年10期
关键词:矩形聚类雷达

刘峻臣,胡 进,何航峰

(中国船舶重工集团公司第七二四研究所,南京 211106)

0 引 言

随着电子信息技术的不断发展,新的雷达体制和信号调制样式相继出现,电子侦察面临的电磁环境越来越复杂。如何在复杂的电磁环境中正确地分选出未知雷达信号,一直是电子侦察工作中的重点和难题。

聚类算法是数据挖掘中的一种重要算法,它能挖掘未知数据间的相关性,将性质相似的数据归为一类[1]。聚类作为一种无监督的分类方法,很适合解决缺乏先验信息的未知雷达信号的分类问题[2]。K-means聚类算法因收敛快、易于实现、思想简单、不需要先验信息在雷达信号分选中应用比较广泛[2]。但是传统的K-means聚类算法需要人工设定聚类数目,并且对聚类中心敏感,从而影响了雷达信号分选准确率。对于聚类数目的确定,一般使用手肘法,但是并不是所有代价函数曲线都存在明显的“肘部”,并且也无法解决算法对聚类中心敏感的问题。K-means++算法能够更加合理地给出初始聚类中心,但是当数据量增加时,算法的初始化回变得很慢。为了实现对聚类数目和聚类中心的自动确定,文献[3]使用数据场对雷达信号进行分选,能自动选取聚类中心和聚类个数,但是需要手动设定影响因子;文献[4]提出势熵的概念,利用势熵可以自动选取辐射因子,但是运算量较大。大部分数据场使用欧式距离进行计算[5-6],对分布多为矩形簇的雷达信号进行分选时容易发生错误。

本文对传统的数据场方法进行改进,使用子空间划分的方法快速确定影响因子,提高数据场的计算速度,并使用密度阈值清除信号交叠区域的网格;针对雷达信号的矩形簇分布,提出使用矩形等效距离替代欧氏距离的方法,从而更准确地获得聚类数目和聚类中心,较好地实现了雷达信号的分选。

1 数据场理论

李德毅院士[7]参照传统物理中场的定义,提出了数据场理论。数据场理论假定数据空间中的点都是具有一定质量的粒子,每个数据粒子都会对周围空间产生一定的作用效果,数据空间中其他数据点将受到该点场力的作用,同时该粒子也会受到其他粒子场力的作用。

设定已知空间Ω中包含有n个数据粒子集合D={x1,x2,…,xn},其中每一个数据粒子为m维向量xi={xi1,xi2,…,xim},即使用高斯影响函数来表示数据场中某一个数据点xa在数据中点xb产生的场强函数如下:

(1)

式中:σ表示影响因子,用来决定每个数据粒子的作用距离;m为每个数据粒子的等效质量;d(xa,xb)为两点之间的欧式距离。

数据场中所有数据粒子对xb产生的场强函数的和称为势函数,定义如下:

(2)

由式(2)可知,势值和距离成反比,即数据密集的地方势值大,稀疏的地方势值小。

2 基于改进数据场的雷达信号分选方法

2.1 雷达信号矩形簇特征

雷达分选中一般使用雷达信号的脉冲描述字(Pulse Descriptor Word,PDW)作为分选依据,PDW一般包含雷达的幅度(Pulse Amplitude,PA)、到达时间(Time of Arrival,TOA)、载频(Radio Frequency,RF)、脉宽(Pulse Width,PW)、脉冲到达角(Direction of Arrival,DOA)[8]。其中,PA稳定度不高,TOA在混叠的信号中无法直接作为分选依据,因此本文使用RF、PW和DOA作为信号分选的参数。

现代雷达信号参数复杂多变,在载频的调制上一般有固定载频、载频捷变、载频滑变和载频参差组变。其中,固定载频由于存在系统测量误差,在分布上呈现正态分布规律;载频捷变为信号载频在一个区间内随机变化,变化规律服从均匀分布;载频参差组变为信号有多个频点,信号在每个频点上持续一定时间,然后跳变到下一个频点;载频滑变的分布取决于滑变步长的大小,当步长较小时可看作与载频捷变类似,步长较大时与载频参差组变类似。脉宽的调制方式一般有固定脉宽、脉宽捷变,其分布规律与载频相似。

雷达信号的到达角参数的改变仅取决于电子侦察系统与辐射源之间的相对位置,DOA的变化相对较慢,可以假设为一个匀速变化的过程。DOA参数的计算如下式所示:

DOA=DOAs+δ(t)。

(3)

式中:DOAs为初始的DOA参数,δ(t)为目标的角度变化值。DOA的变化在分布上也可看作均匀分布。

为了对参数复杂多变的雷达信号进行研究,选择信号的载频、脉宽和到达角中任意两种参数进行组合,得到可能的雷达信号参数组合如表1所示。

表1 雷达信号二维分布形式

为了直观表现出雷达信号参数在二维空间上的分布特点,将表1中雷达信号的各种分布形式展示在二维平面上,如图1所示。

图1 雷达信号分布特征示意图

结合表1和图1可以看出,当雷达信号的两个参数的调制类型为捷变或者参差组变时,雷达信号在二维空间上呈现出近似矩形簇的形态(如图1中的分布1、分布3、分布5)。

2.2 改进距离函数

传统的数据场在计算时使用欧式距离,单个数据点产生的数据场的等势线在二维空间中体现为以数据点为圆心、作用范围为半径的圆。当数据的分布近似圆形簇时,欧氏距离数据场分析可以取得较好的效果。当雷达信号为图1中的分布1、分布3、分布5时,其分布形状近似为矩形簇,使用欧氏距离数据场进行分析时,效果不太理想。为了提高数据场对矩形簇的雷达信号分析的效果,本文对数据场中的距离函数进行改进,使用矩形等效距离代替欧式距离,使得数据场中的单个数据点的作用范围变为矩形,从而提高数据场对雷达信号的分析能力。

以二维空间为例对数据空间中的单个数据点进行分析,单个数据点的空间分布如图2所示。

图2 矩形等效距离原理图

假设改进的数据场中数据点产生的作用范围为边长为L的正方形。将正方形划分为4个区域,求取每个区域的等效距离。假设数据点的坐标为(x1,y1),位于正方形边长上的任意点为(x2,y2),则向量1可表示为(x2-x1,y2-y1)。利用向量1在x轴方向和y轴方向上的投影距离对正方形进行区域划分:

(4)

对于不同的区域,分别求出其等效距离为

(5)

使用两种距离函数的数据场对雷达矩形簇信号进行分析,如图3所示。

图3 数据场作用范围对比

在影响因子相同的情况下,原始数据场和矩形数据场的作用范围分别为直径为2L的圆和边长为2L的正方形。当数据分布为矩形簇时,有一部分数据会落在区域2中,对比数据场的作用范围可知,原始数据场会将区域2中的数据点划分到另外一类中,矩形数据场则会将这部分的数据点与中心数据点归为一类,因此,对于数据分布为矩形簇的信号,使用改进的数据场能得到更好的分析效果,并且相对于原始的欧式距离,改进的距离函数在计算上只有减法和判断,在运算速度上有所提高。

2.3 基于网格划分的影响因子σ选取方法

由式(2)可知,数据对象的作用距离与σ值的大小成正比。当σ值过小时,数据空间中的每个数据粒子都不能对其他数据粒子产生作用,每个数据粒子相互独立,自成一类;当σ值过大时,整个数据场会只出现一个势心。上述的两种情况都不能准确反映数据空间中数据的分布情况,所以如何选择一个合适的辐射因子值对数据场的构建十分重要。

目前常用的影响因子选取方法有两种。一种是根据经验,在数据量小于1 000时,选取影响因子为0.1,数据量增加一个数量级时,影响因子设定为0.05[1]。但使用这种方法设定影响因子不够灵活,在对不同类型数据进行处理时容易出现错误。第二种方法为找到势熵的最小值,利用势熵的最小值来求取影响因子[4,9]。此方法可以较好地确定影响因子的值,但是运算量很大。

本文提出一种基于网格划分的影响因子选取方法。首先根据数据总数N来确定每一维区间划分个数K[10]:

(6)

式中:m为可调参数,m取值越大,划分网格数越少;m取值越小,划分网格数越多,一般数据点数越多时,m取值越大,当数据量在100~10 000时m通常取值为2~4。归一化后的数据空间的每个区间的边长为

(7)

定义每个网格中包含的数据点个数为网格密度ρ,对被划分到一个网格中的所有数据点的参数求平均值合成一个新的等效数据点,其等效质量的数值设为网格密度ρ。在最后进行数据场计算时,使用等效数据点进行计算,进一步提高了数据场的计算速度。

完成网格划分后,借鉴网格聚类原理,在进行数据场的计算时将两个相邻网格的数据点归为同一个势心。当两个数据点的距离减小时,两个数据点会被归为一个势心;当两个数据点的距离增加时,两个数据点会被划分为两个势心。两个数据点叠加的势F为

(8)

式中:l为单个网格的边长,d为与数据点的距离。两个数据点的势函数在l=d时相交,当交点的势为最大值时,两个数据点会被归为一个势心。用式(8)对d求一阶偏导:

(9)

当l=d时,式(9)等于0。用式(8)对d求二阶偏导,可得

(10)

在l=d点解得式(10)严格小于0的条件为d<σ,此时F在l=d处取得最大值,因此利用子空间的边长l可以确定影响因子为

σ=1.01×l。

(11)

2.4 信号交叠部分的处理

数据场算法的本质是基于密度的聚类算法。在两个信号交叠的时候,交叠处的密度大于两个信号本身的密度,数据场算法很容易将两个信号聚类为一个势心,因此本文在网格划分的基础上对信号交叠部分的网格进行处理。首先对2.3节中每一个带数据的网格求取平均得到平均网格密度ρmean为

(12)

式中:N为带数据的网格总数,ρi为单个网格的密度。利用网格中数据密度的标准差S来设置密度阈值,将密度大于平均密度两倍标准差的网格清除,因此密度阈值ρthreshold的设定如下:

ρthreshold=ρmean+2×S。

(13)

2.5 改进数据场的雷达信号分选方法

2.5.1 数据预处理

本文使用RF、PW和DOA作为信号分选的参数。为了确保聚类算法不受量纲的影响,多维数据聚类时需要对数据进行归一化处理。假设需要对N个PDW进行分选,其归一化过程如下:

(14)

式中:i表示PDW的第i维参数,i=1,2,3;j表示第j个数据,j=1,2,…,N。

2.5.2 算法流程

首先对信号PDW进行归一化处理,然后使用网格划分方法对数据空间进行划分,根据网格的长度确定数据场的影响因子,并且对交叠的高密度网格进行清除处理,通过矩形数据场的分布获得聚类数目和初始聚类中心,最终使用K-means均值算法完成信号分选。算法的总体流程如图4所示。

图4 算法总体流程图

3 仿真实验

3.1 矩形数据场测试

为了测试矩形数据场对雷达信号的分析效果,使用原始数据场和矩形数据场分别对图1中5种分布的数据进行分析测试,其中数据场的影响因子范围设置为0.01~0.15,增加步长为0.01,结果如表2所示。

表2 数据场对比测试效果

由表2可以得出,当数据为分布1、分布3和分布5时,矩形数据场比原始数据场更快收敛到正确的势心个数;当数据为分布2和分布4时,矩形数据场和原始数据场保持相近的分析能力,因此使用矩形场对雷达信号进行分析时可以获得比原始数据场更好的分析效果。

3.2 信号分选测试

本文使用Matlab对算法进行仿真验证,仿真信号参数如表3所示,并且在仿真时对各个参数加入一定的高斯测量误差。

表3 仿真信号参数

对仿真的雷达信号分别使用原始数据场和改进后数据场进行计算,其中原始数据场的影响因子取值为0.03,改进后数据场的网格划分参数m取值为4,得到的数据场二维图如图5~7所示。

(a)原始数据场

(b)改进数据场图5 载频和脉宽数据场二维图

(a)原始数据场

(b)改进数据场图6 载频和方位角数据场二维图

(a)原始数据场

(b)改进数据场图7 脉宽和方位角数据场二维图

根据数据场的定义可知,影响因子取值越大,单个数据点的作用范围越大,数据场的势心数减少;影响因子取值越小,单个数据点的作用范围越小,数据场的势心数增加。由图5(a)中可以看出,雷达4被数据场分为了两个势心,如果需要使数据场中的雷达4变为1个势心,则需要增大影响因子的值,但此时雷达2和雷达3被划分为一个势心,要使其被数据场分为两个势心,则需要减小影响因子的值,与雷达4的划分需求矛盾,图6(a)和图7(a)均存在类似问题。由图5(b)、图6(b)和图7(b)可以看出,对于同样的雷达信号,改进的数据场方法相比于传统方法,可以更好地确定雷达的数目和聚类中心。

使用手肘法(聚类个数范围设定为1~7),传统数据场(影响因子与改进数据场求得的影响因子0.063 1保持一致)和改进数据场对雷达信号进行100次蒙特卡洛实验,得到结果如表4所示。

表4 聚类个数算法迭代时间

由表4可以看出,手肘法因为需要使用多个k值(聚类个数)进行聚类和计算损失值,运算速度最慢;改进的数据场方法因只需要对网格合并后的数据点进行计算,并且避免了欧氏距离的计算,运算速度最快。取数据场计算后的峰值(势心个数)作为聚类个数,可以得到数据的聚类个数为5个,得到聚类中心如表5所示。

表5 初始聚类中心

使用5作为K-means算法的聚类数目,表5中的参数作为K-means算法的初始聚类中心,对雷达信号进行100次蒙特卡洛实验,对分选正确率和运行时间取平均值,对比原始K-means算法和K-means++算法,得到的结果如表6所示。

表6 算法准确率与运行时间对比

由表6可以看出,改进后算法相比于传统的K-means算法,虽然运行时间有所增加,但是算法的迭代次数减少,分选准确率更高;K-means++算法虽然有较高的准确率,但是运行速度很慢。K-means算法、K-means++算法和本文算法的迭代次数折线图(运行30次)如图8所示。

图8 算法迭代次数对比

由图8可以看出,改进的数据场算法在提供了聚类数目和初始聚类中心后,算法的迭代次数趋于稳定,只提供聚类数目的K-means算法和K-means++算法的迭代次数不够稳定,每次运行的迭代次数变化较大。

4 结束语

本文针对雷达信号的特点,对传统的数据场算法进行改进,使用矩形等效距离替代原始欧式距离,并且利用网格划分的方法,快速确定影响因子,清除信号交叠处的高密度网格,最后结合K-means算法对信号进行聚类分选。仿真实验表明,网格划分数据场算法能更好地求取聚类个数和聚类中心,并且能够减少K-means算法的迭代次数,提高数据场计算速度和分选准确率,具有一定的参考价值。但文中只给定了网格划分中m参数的选取策略,对于m参数的自动化选取还有待进一步研究。

猜你喜欢

矩形聚类雷达
两矩形上的全偏差
基于K-means聚类的车-地无线通信场强研究
DLD-100C型雷达测试方法和应用
化归矩形证直角
雷达
从矩形内一点说起
基于高斯混合聚类的阵列干涉SAR三维成像
基于空时二维随机辐射场的弹载雷达前视成像
现代“千里眼”——雷达
一种层次初始的聚类个数自适应的聚类方法研究